时间序列轨迹(Time Series Trajectories)

以状态—动作—奖励序列形式构建,支持 Transformer 等模型的时空理解。

格式:(s₀, a₀, [r₀]), (s₁, a₁, [r₁]), …, (s_T, a_T, [r_T])

状态-动作对集合(State-Action Pairs)

行为克隆(Behavior Cloning)方法的基础数据格式,包含专家演示的状态-动作对 (s, a)。

离线强化学习数据(Offline RL Data)

组织为五元组:(s, a, r, s’, done)

用于价值函数训练和策略评估。

多模态数据格式(Multimodal Data)

通过以下方式融合视觉、文本和动作信号:

  • 时间同步
  • 空间对齐
  • 特征融合

元数据和标注(Metadata)

提供上下文标签:

  • 成功/失败状态
  • 任务类型
  • 语言翻译
  • 强化学习偏好标注