训练策略:多阶段优化与对齐调整
初始化
- Thinker 主干 LLM:初始化自 Qwen2.5 基座模型
- 视觉编码器:初始化自 Qwen2.5-VL 模型
- 音频编码器:初始化自 Whisper-large-v3
阶段1:编码器对齐预训练
冻结 LLM 参数,只训练视觉和音频编码器(包括与 LLM 衔接的适配层)。
目标:在不干扰预训练语言模型知识的前提下,将图像和语音编码器的输出对齐到 LLM 的语义空间。
阶段2:全模态联合训练
解除 LLM 冻结,全模型参数均参与训练。
训练数据:图文对、视听对、音频+文字、多模态混合等。
阶段3:长序列能力增强
扩大上下文窗口,从 8192 提升到 32768 个 token。
SFT 和 RLHF
指令微调(SFT)
采用类似 ChatGPT 的多轮对话格式,使用 ChatML 模板。
微调数据规模:超过 100 万条对话示例。
强化学习调优
- DPO(Direct Preference Optimization)
- Group RPO(组级相对策略优化)
多模态能力
支持的模态
- 输入:文本、图像、音频、视频
- 输出:文本 + 语音
视觉理解
- 图像描述
- 图像问答
- OCR 识别
语音和音频
- ASR 语音识别
- 语音翻译
- 非语音音频理解
视频理解
同时处理视频的图像帧和对应音频。
实时交互
Thinker-Talker 架构和块状处理确保边接收输入边产生输出。
长上下文技术
- Dual Chunk Attention(DCA)
- YARN
- TMRoPE