标签: Qwen

共 4 篇文章

AI研究-130 Qwen2.5-Omni 实战：多场景落地清单与同期对标

办公助理、教育培训、编程与运维、搜索增强 RAG、设备控制/插件代理与陪伴娱乐。围绕 Thinker-Talker 双核、TMRoPE、Streaming DiT、文本/图像/音频/视频输入 + 文本/语音输出与 32k 上下文等要点，给出工程化取舍与对标脉络（与 GPT-4/Claude/Gemini 同期模型的优劣势对比）。同时总结 RAG 接入、Agent 调用、OCR/ASR/T...

2025/11/19

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

在 FP16≈14GB 显存下可稳态运行，配合 INT8/INT4 量化（INT4 <4GB）能在消费级 GPU 甚至边缘端部署；结合 FlashAttention 2 与多线程并发，单机可服务多会话低延迟。上下文默认 8k，长序 32k，实验系 Turbo 支持 ~1M token。文中罗列 Omni 在多模态综合/ASR/TTS/视觉/视频/MMLU/GSM8K/HumanEval 等评...

2025/11/18

AI研究-128 Qwen2.5-Omni 训练全流程拆解：三阶段对齐 + SFT/RLHF 原理流程分析研究

以 Qwen2.5 基座为 Thinker，视觉初始化于 Qwen2.5-VL，音频参考 Whisper-large-v3，采用"三阶段"训练（编码器对齐→全模态联合→长序列）并结合 SFT 与 RLHF（如 DPO、Group RPO）。在长上下文方面，Omni-7B 默认约 32k 上下文，配合 Dual Chunk Attention（DCA）、YARN、TMRoPE 等机制，兼顾...

2025/11/17

AI研究-127 Qwen2.5-Omni 深解：Thinker-Talker 双核、TMRoPE 与流式语音

Qwen2.5-Omni（2024–2025）的 Thinker-Talker 双核架构做工程化拆解：统一 Transformer 解码器融合文本/图像/视频/音频，通过 TMRoPE 完成时间对齐；生成侧采用双轨自回归 + 流式 TTS（qwen-tts-tokenizer），支持多说话人音色解耦。训练数据在 Qwen2.5 体系上扩展（文本与多模态对齐数据），并结合分块输入、滑窗...

2025/11/16