AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

2025/11/18

人工智能 ai Qwen 深度学习机器学习大模型全模态

显存与部署

FP16 精度：约 14GB 显存
INT8/INT4 量化：<4GB
普通 PC 甚至高端手机均可运行

上下文窗口

默认：8192 tokens
长序列增强：32k tokens
实验版 Turbo：约 100 万 token

推理优化

FlashAttention 2 加速（需 Ampere+ GPU）
支持 bfloat16 或 int8/int4 量化

并发能力

7B 模型可单机运行多个实例，高 QPS 低单位成本，适合企业级部署。

开源协议

Apache-2.0 协议，免费可商用。

性能表现

评测	得分
OmniBench 综合	56.13%
MMLU	71.0%
GSM8K	88.7%
HumanEval	78.7%

成本

讨论 Apache-2.0 开源自建与云 API 两种方案。