AI研究-128 Qwen2.5-Omni 训练全流程拆解：三阶段对齐 + SFT/RLHF 原理流程分析研究

训练策略：多阶段优化与对齐调整

冻结 LLM 参数，只训练视觉和音频编码器（包括与 LLM 衔接的适配层）。

目标：在不干扰预训练语言模型知识的前提下，将图像和语音编码器的输出对齐到 LLM 的语义空间。

解除 LLM 冻结，全模型参数均参与训练。

训练数据：图文对、视听对、音频+文字、多模态混合等。

扩大上下文窗口，从 8192 提升到 32768 个 token。

采用类似 ChatGPT 的多轮对话格式，使用 ChatML 模板。

微调数据规模：超过 100 万条对话示例。

同时处理视频的图像帧和对应音频。

Thinker-Talker 架构和块状处理确保边接收输入边产生输出。