预训练(Pre-training)
预训练是机器人学习中的关键环节,旨在通过大规模数据训练获得通用的基础能力。
监督式预训练(模仿学习)
使用大量专家示范数据(如人类操作视频),训练模型学习基本的动作模式和任务理解。
自监督预训练
利用无标注数据学习通用表示,常见方法包括对比学习、掩码预测等。
- 典型案例:OpenAI 的 VPTR 方法在数百万随机交互视频上预训练世界模型
- DeepMind RT-2:使用数十亿规模的网络图文数据训练视觉语言模型
迁移学习策略
采用现有预训练模型(如 ViT、CLIP 等)作为特征提取器,仅需训练下游控制模块。
预训练产出
- 初始策略模型
- 特征提取器
- 世界模型
建议数据量
- 视觉任务:10 万+ 图像/视频
- 控制任务:1000+ 小时操作记录
微调(Fine-tuning)
全量参数更新
更新模型的所有参数,需要较大的计算资源和训练数据,适用于目标任务与预训练任务差异较大的情况。
参数高效微调(PEFT)
只更新部分参数或添加少量可训练参数,常用方法包括:
- LoRA
- Adapter
- Prefix-tuning
合理微调策略可在保持模型性能的同时,将训练成本降低 50-90%。
强化学习微调 / 在线训练
遵循”IL→RL”的范式:
模仿学习阶段
通过专家演示数据训练基础策略,确保机器人掌握基本技能框架。
强化学习阶段
- 设定精细化的奖励函数
- 机器人自主探索优化空间
- 通过试错学习改进策略
典型方法:策略梯度方法、Q-learning 算法、残差学习等
奖励建模与人类反馈(RLHF)
当设计明确的数值奖励困难时,采用人类反馈塑造模型行为。
RLHF 流程
- 数据收集阶段:收集大量人类偏好比较数据
- 奖励模型训练:使用比较数据训练奖励模型 R(s)
- 策略优化阶段:使用训练好的奖励模型进行强化学习(如 PPO)
训练期间的优化技巧
- 模仿学习中使用因果掩码避免未来信息泄露
- RL 中使用经验回放和奖励归一化稳定训练
- Transformer 模型中利用 FlashAttention 加速训练
- BC 常用均方误差或交叉熵损失,RL 用策略梯度损失
- 可加模仿损失融合 IL 和 RL
- 连续控制可在损失中加平滑项
迭代训练
机器人学习是一个持续优化的闭环过程。典型迭代周期:
- 初始模型训练
- 部署测试
- 数据增强
- 模型改进
- 难度提升(Curriculum Learning)
实际应用中的训练路线
- 仿真预训练阶段
- 实机微调阶段
- 持续优化