AI研究-127 Qwen2.5-Omni 深解：Thinker-Talker 双核、TMRoPE 与流式语音

2025/11/16

人工智能大模型 Qwen LLM 深度学习机器学习 AI

架构要点

整体架构

Thinker-Talker 双核架构
统一 Transformer 解码器融合文本、图像、视频、音频
TMRoPE（时间对齐多模态 RoPE）进行位置嵌入

Thinker（思考模块）

模型”大脑”，基于 Transformer 解码架构
负责多模态输入的深度理解和推理，生成文本
音频通过 Whisper 衍生编码器提取特征
图像/视频通过 Vision Transformer 编码器处理

Talker（发声模块）

模型”嘴巴”，专职将语义向量和文本转化为语音输出
采用双轨自回归 Transformer 结构
使用 qwen-tts-tokenizer 离散语音单元输出
支持多说话人音色解耦

训练数据

预训练语料

规模：18 万亿 tokens（相较前代 7 万亿）
涵盖超过 29 种语言

多模态对齐数据

图像/视频 tokens：8000 亿
音频 tokens：3000 亿
视频-音频混合 tokens：1000 亿

错误速查

症状	根因	修复
音画不同步、口型错位	TMRoPE 时间戳不一致	统一采样率/帧率
首包延迟高	流式 chunk 过大	减小首段 chunk；开启 KV Cache
显存爆	长序列未分块	启用分块与滑窗；降分辨率/帧率
中文同音读错	文本参考 token 不足	增大参考窗口