现代 AI 方法概述

  • 强化学习(RL)
  • 模仿学习(IL / BC)
  • Transformer 大模型(ACT、VLA)
  • 多模态感知融合

视觉-语言-动作模型(VLA)

RT-1

  • 训练数据:13 万人类演示
  • 任务:700+ 厨房场景
  • 输入:6 张连续图像 + 自然语言指令
  • 输出:11 维离散动作向量
  • 成功率:85%+

RT-2

  • 参数:5.5B(PaLI-X)
  • 创新:知识迁移、动作离散化、混合训练
  • 提升:开放词汇任务 +47%、适应 +60%、复杂指令 +35%

扩散策略(Diffusion Policy)

RDT-1B

  • 256 层 Transformer
  • 生成 64 步双臂协调动作序列
  • 提升:精细抓取 +23%、复杂装配 -37% 时间、动态环境 +41%

优势

  • 自然处理多模态动作分布
  • 处理环境不确定性
  • 强序列建模能力

挑战

  • 采样速度慢
  • 解决:知识蒸馏、Transformer

发展趋势

  1. 早期:纯奖励优化(RL)
  2. 中期:模仿学习(IL)
  3. 当前:大模型 + 生成策略