预训练(Pre-training)

预训练是机器人学习中的关键环节,旨在通过大规模数据训练获得通用的基础能力。

监督式预训练(模仿学习)

使用大量专家示范数据(如人类操作视频),训练模型学习基本的动作模式和任务理解。

自监督预训练

利用无标注数据学习通用表示,常见方法包括对比学习、掩码预测等。

  • 典型案例:OpenAI 的 VPTR 方法在数百万随机交互视频上预训练世界模型
  • DeepMind RT-2:使用数十亿规模的网络图文数据训练视觉语言模型

迁移学习策略

采用现有预训练模型(如 ViT、CLIP 等)作为特征提取器,仅需训练下游控制模块。

预训练产出

  • 初始策略模型
  • 特征提取器
  • 世界模型

建议数据量

  • 视觉任务:10 万+ 图像/视频
  • 控制任务:1000+ 小时操作记录

微调(Fine-tuning)

全量参数更新

更新模型的所有参数,需要较大的计算资源和训练数据,适用于目标任务与预训练任务差异较大的情况。

参数高效微调(PEFT)

只更新部分参数或添加少量可训练参数,常用方法包括:

  • LoRA
  • Adapter
  • Prefix-tuning

合理微调策略可在保持模型性能的同时,将训练成本降低 50-90%。

强化学习微调 / 在线训练

遵循”IL→RL”的范式:

模仿学习阶段

通过专家演示数据训练基础策略,确保机器人掌握基本技能框架。

强化学习阶段

  • 设定精细化的奖励函数
  • 机器人自主探索优化空间
  • 通过试错学习改进策略

典型方法:策略梯度方法、Q-learning 算法、残差学习等

奖励建模与人类反馈(RLHF)

当设计明确的数值奖励困难时,采用人类反馈塑造模型行为。

RLHF 流程

  1. 数据收集阶段:收集大量人类偏好比较数据
  2. 奖励模型训练:使用比较数据训练奖励模型 R(s)
  3. 策略优化阶段:使用训练好的奖励模型进行强化学习(如 PPO)

训练期间的优化技巧

  • 模仿学习中使用因果掩码避免未来信息泄露
  • RL 中使用经验回放和奖励归一化稳定训练
  • Transformer 模型中利用 FlashAttention 加速训练
  • BC 常用均方误差或交叉熵损失,RL 用策略梯度损失
  • 可加模仿损失融合 IL 和 RL
  • 连续控制可在损失中加平滑项

迭代训练

机器人学习是一个持续优化的闭环过程。典型迭代周期:

  1. 初始模型训练
  2. 部署测试
  3. 数据增强
  4. 模型改进
  5. 难度提升(Curriculum Learning)

实际应用中的训练路线

  • 仿真预训练阶段
  • 实机微调阶段
  • 持续优化