标签: 全模态

共 1 篇文章

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

在 FP16≈14GB 显存下可稳态运行，配合 INT8/INT4 量化（INT4 <4GB）能在消费级 GPU 甚至边缘端部署；结合 FlashAttention 2 与多线程并发，单机可服务多会话低延迟。上下文默认 8k，长序 32k，实验系 Turbo 支持 ~1M token。文中罗列 Omni 在多模态综合/ASR/TTS/视觉/视频/MMLU/GSM8K/HumanEval 等评...

2025/11/18