标签: Qwen

共 4 篇文章

AI研究-130 Qwen2.5-Omni 实战:多场景落地清单与同期对标

办公助理、教育培训、编程与运维、搜索增强 RAG、设备控制/插件代理与陪伴娱乐。围绕 Thinker-Talker 双核、TMRoPE、Streaming DiT、文本/图像/音频/视频输入 + 文本/语音输出 与 32k 上下文 等要点,给出工程化取舍与对标脉络(与 GPT-4/Claude/Gemini 同期模型的优劣势对比)。同时总结 RAG 接入、Agent 调用、OCR/ASR/T...

AI研究-129 Qwen2.5-Omni-7B 要点:显存、上下文、并发与成本

在 FP16≈14GB 显存下可稳态运行,配合 INT8/INT4 量化(INT4 <4GB)能在消费级 GPU 甚至边缘端部署;结合 FlashAttention 2 与多线程并发,单机可服务多会话低延迟。上下文默认 8k,长序 32k,实验系 Turbo 支持 ~1M token。文中罗列 Omni 在多模态综合/ASR/TTS/视觉/视频/MMLU/GSM8K/HumanEval 等评...

AI研究-128 Qwen2.5-Omni 训练全流程拆解:三阶段对齐 + SFT/RLHF 原理流程分析研究

以 Qwen2.5 基座为 Thinker,视觉初始化于 Qwen2.5-VL,音频参考 Whisper-large-v3,采用"三阶段"训练(编码器对齐→全模态联合→长序列)并结合 SFT 与 RLHF(如 DPO、Group RPO)。在长上下文方面,Omni-7B 默认约 32k 上下文,配合 Dual Chunk Attention(DCA)、YARN、TMRoPE 等机制,兼顾...

AI研究-127 Qwen2.5-Omni 深解:Thinker-Talker 双核、TMRoPE 与流式语音

Qwen2.5-Omni(2024–2025) 的 Thinker-Talker 双核架构 做工程化拆解:统一 Transformer 解码器融合 文本/图像/视频/音频,通过 TMRoPE 完成时间对齐;生成侧采用 双轨自回归 + 流式 TTS(qwen-tts-tokenizer),支持多说话人音色解耦。训练数据在 Qwen2.5 体系上扩展(文本与多模态对齐数据),并结合分块输入、滑窗...