强化学习(RL)
- 核心:通过环境奖励信号驱动机器人自主学习策略
- 典型算法:
- DQN(值函数方法)
- PPO(策略梯度方法)
- SAC(混合方法)
- 应用:机械臂操作、移动机器人导航、四足机器人行走、无人机飞行
模仿学习(IL)
- 行为克隆(BC):将状态到动作映射转化为监督学习
- 问题:分布漂移,误差随时间累积
- 改进方法:
- DAgger
- 逆强化学习(IRL)
- 生成对抗模仿学习(GAIL)
Transformer 序列决策模型
- Decision Transformer:历史状态-动作序列与期望回报联合编码
- GATO / PaLM-E:多模态统一编码
动作分块 Transformer(ACT)
- 核心创新:将连续动作离散化为固定长度的动作块(k=10-20 步)
- 技术细节:采用 CVAE 条件变分自编码器
- 性能:精细操作任务成功率 80-90%