架构要点

整体架构

  • Thinker-Talker 双核架构
  • 统一 Transformer 解码器融合文本、图像、视频、音频
  • TMRoPE(时间对齐多模态 RoPE)进行位置嵌入

Thinker(思考模块)

  • 模型”大脑”,基于 Transformer 解码架构
  • 负责多模态输入的深度理解和推理,生成文本
  • 音频通过 Whisper 衍生编码器提取特征
  • 图像/视频通过 Vision Transformer 编码器处理

Talker(发声模块)

  • 模型”嘴巴”,专职将语义向量和文本转化为语音输出
  • 采用双轨自回归 Transformer 结构
  • 使用 qwen-tts-tokenizer 离散语音单元输出
  • 支持多说话人音色解耦

训练数据

预训练语料

  • 规模:18 万亿 tokens(相较前代 7 万亿)
  • 涵盖超过 29 种语言

多模态对齐数据

  • 图像/视频 tokens:8000 亿
  • 音频 tokens:3000 亿
  • 视频-音频混合 tokens:1000 亿

错误速查

症状根因修复
音画不同步、口型错位TMRoPE 时间戳不一致统一采样率/帧率
首包延迟高流式 chunk 过大减小首段 chunk;开启 KV Cache
显存爆长序列未分块启用分块与滑窗;降分辨率/帧率
中文同音读错文本参考 token 不足增大参考窗口