强化学习(RL)

  • 核心:通过环境奖励信号驱动机器人自主学习策略
  • 典型算法
    • DQN(值函数方法)
    • PPO(策略梯度方法)
    • SAC(混合方法)
  • 应用:机械臂操作、移动机器人导航、四足机器人行走、无人机飞行

模仿学习(IL)

  • 行为克隆(BC):将状态到动作映射转化为监督学习
  • 问题:分布漂移,误差随时间累积
  • 改进方法
    • DAgger
    • 逆强化学习(IRL)
    • 生成对抗模仿学习(GAIL)

Transformer 序列决策模型

  • Decision Transformer:历史状态-动作序列与期望回报联合编码
  • GATO / PaLM-E:多模态统一编码

动作分块 Transformer(ACT)

  • 核心创新:将连续动作离散化为固定长度的动作块(k=10-20 步)
  • 技术细节:采用 CVAE 条件变分自编码器
  • 性能:精细操作任务成功率 80-90%