微光实验室 · 标签归档
共 1 篇文章,按主题汇总相关教程、案例、工程实践和阶段性总结。
以 Qwen2.5 基座为 Thinker,视觉初始化于 Qwen2.5-VL,音频参考 Whisper-large-v3,采用"三阶段"训练(编码器对齐→全模态联合→长序列)并结合 SFT 与 RLHF(如 DPO、Group RPO)。