现代 AI 方法概述
- 强化学习(RL)
- 模仿学习(IL / BC)
- Transformer 大模型(ACT、VLA)
- 多模态感知融合
视觉-语言-动作模型(VLA)
RT-1
- 训练数据:13 万人类演示
- 任务:700+ 厨房场景
- 输入:6 张连续图像 + 自然语言指令
- 输出:11 维离散动作向量
- 成功率:85%+
RT-2
- 参数:5.5B(PaLI-X)
- 创新:知识迁移、动作离散化、混合训练
- 提升:开放词汇任务 +47%、适应 +60%、复杂指令 +35%
扩散策略(Diffusion Policy)
RDT-1B
- 256 层 Transformer
- 生成 64 步双臂协调动作序列
- 提升:精细抓取 +23%、复杂装配 -37% 时间、动态环境 +41%
优势
- 自然处理多模态动作分布
- 处理环境不确定性
- 强序列建模能力
挑战
- 采样速度慢
- 解决:知识蒸馏、Transformer
发展趋势
- 早期:纯奖励优化(RL)
- 中期:模仿学习(IL)
- 当前:大模型 + 生成策略