AI研究-128 Qwen2.5-Omni 训练全流程拆解:三阶段对齐 + SFT/RLHF 原理流程分析研究
以 Qwen2.5 基座为 Thinker,视觉初始化于 Qwen2.5-VL,音频参考 Whisper-large-v3,采用"三阶段"训练(编码器对齐→全模态联合→长序列)并结合 SFT 与 RLHF(如 DPO、Group RPO)。在长上下文方面,Omni-7B 默认约 32k 上下文,配合 Dual Chunk Attention(DCA)、YARN、TMRoPE 等机制,兼顾...