时间序列轨迹(Time Series Trajectories)
以状态—动作—奖励序列形式构建,支持 Transformer 等模型的时空理解。
格式:(s₀, a₀, [r₀]), (s₁, a₁, [r₁]), …, (s_T, a_T, [r_T])
状态-动作对集合(State-Action Pairs)
行为克隆(Behavior Cloning)方法的基础数据格式,包含专家演示的状态-动作对 (s, a)。
离线强化学习数据(Offline RL Data)
组织为五元组:(s, a, r, s’, done)
用于价值函数训练和策略评估。
多模态数据格式(Multimodal Data)
通过以下方式融合视觉、文本和动作信号:
- 时间同步
- 空间对齐
- 特征融合
元数据和标注(Metadata)
提供上下文标签:
- 成功/失败状态
- 任务类型
- 语言翻译
- 强化学习偏好标注