训练策略:多阶段优化与对齐调整

初始化

  • Thinker 主干 LLM:初始化自 Qwen2.5 基座模型
  • 视觉编码器:初始化自 Qwen2.5-VL 模型
  • 音频编码器:初始化自 Whisper-large-v3

阶段1:编码器对齐预训练

冻结 LLM 参数,只训练视觉和音频编码器(包括与 LLM 衔接的适配层)。

目标:在不干扰预训练语言模型知识的前提下,将图像和语音编码器的输出对齐到 LLM 的语义空间。

阶段2:全模态联合训练

解除 LLM 冻结,全模型参数均参与训练。

训练数据:图文对、视听对、音频+文字、多模态混合等。

阶段3:长序列能力增强

扩大上下文窗口,从 8192 提升到 32768 个 token。

SFT 和 RLHF

指令微调(SFT)

采用类似 ChatGPT 的多轮对话格式,使用 ChatML 模板。

微调数据规模:超过 100 万条对话示例。

强化学习调优

  • DPO(Direct Preference Optimization)
  • Group RPO(组级相对策略优化)

多模态能力

支持的模态

  • 输入:文本、图像、音频、视频
  • 输出:文本 + 语音

视觉理解

  • 图像描述
  • 图像问答
  • OCR 识别

语音和音频

  • ASR 语音识别
  • 语音翻译
  • 非语音音频理解

视频理解

同时处理视频的图像帧和对应音频。

实时交互

Thinker-Talker 架构和块状处理确保边接收输入边产生输出。

长上下文技术

  • Dual Chunk Attention(DCA)
  • YARN
  • TMRoPE