架构要点
整体架构
- Thinker-Talker 双核架构
- 统一 Transformer 解码器融合文本、图像、视频、音频
- TMRoPE(时间对齐多模态 RoPE)进行位置嵌入
Thinker(思考模块)
- 模型”大脑”,基于 Transformer 解码架构
- 负责多模态输入的深度理解和推理,生成文本
- 音频通过 Whisper 衍生编码器提取特征
- 图像/视频通过 Vision Transformer 编码器处理
Talker(发声模块)
- 模型”嘴巴”,专职将语义向量和文本转化为语音输出
- 采用双轨自回归 Transformer 结构
- 使用 qwen-tts-tokenizer 离散语音单元输出
- 支持多说话人音色解耦
训练数据
预训练语料
- 规模:18 万亿 tokens(相较前代 7 万亿)
- 涵盖超过 29 种语言
多模态对齐数据
- 图像/视频 tokens:8000 亿
- 音频 tokens:3000 亿
- 视频-音频混合 tokens:1000 亿
错误速查
| 症状 | 根因 | 修复 |
|---|
| 音画不同步、口型错位 | TMRoPE 时间戳不一致 | 统一采样率/帧率 |
| 首包延迟高 | 流式 chunk 过大 | 减小首段 chunk;开启 KV Cache |
| 显存爆 | 长序列未分块 | 启用分块与滑窗;降分辨率/帧率 |
| 中文同音读错 | 文本参考 token 不足 | 增大参考窗口 |