AI-调查研究-107-具身智能强化学习与机器人训练数据格式解析：从状态-动作对到多模态轨迹标准

时间序列轨迹（Time Series Trajectories）

以状态—动作—奖励序列形式构建，支持 Transformer 等模型的时空理解。

格式：(s₀, a₀, [r₀]), (s₁, a₁, [r₁]), …, (s_T, a_T, [r_T])

行为克隆（Behavior Cloning）方法的基础数据格式，包含专家演示的状态-动作对 (s, a)。

组织为五元组：(s, a, r, s’, done)

用于价值函数训练和策略评估。

通过以下方式融合视觉、文本和动作信号：

提供上下文标签：