阅读指南 AI 调研与资料整理
面向技术趋势、行业资料和模型能力的调研型内容,适合快速建立背景认知。
适合读者
- 需要快速了解 AI 技术或行业方向的读者
- 想把资料整理转成工程判断的开发者
前置知识
- 了解基本 AI / 后端概念会更顺畅
- 重点关注结论、边界和可落地方向
你将收获
- 获得主题背景、关键术语和趋势判断
- 识别后续需要深入验证的工程问题
这是一篇调研或历史归档型文章,适合作为背景资料阅读;如果要用于实际落地,建议结合最新官方文档和当前工程环境再验证。
架构要点
整体架构
- Thinker-Talker 双核架构
- 统一 Transformer 解码器融合文本、图像、视频、音频
- TMRoPE(时间对齐多模态 RoPE)进行位置嵌入
Thinker(思考模块)
- 模型”大脑”,基于 Transformer 解码架构
- 负责多模态输入的深度理解和推理,生成文本
- 音频通过 Whisper 衍生编码器提取特征
- 图像/视频通过 Vision Transformer 编码器处理
Talker(发声模块)
- 模型”嘴巴”,专职将语义向量和文本转化为语音输出
- 采用双轨自回归 Transformer 结构
- 使用 qwen-tts-tokenizer 离散语音单元输出
- 支持多说话人音色解耦
训练数据
预训练语料
- 规模:18 万亿 tokens(相较前代 7 万亿)
- 涵盖超过 29 种语言
多模态对齐数据
- 图像/视频 tokens:8000 亿
- 音频 tokens:3000 亿
- 视频-音频混合 tokens:1000 亿
错误速查