微光实验室 · 标签归档

标签: 全模态

共 1 篇文章，按主题汇总相关教程、案例、工程实践和阶段性总结。

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

在 FP16≈14GB 显存下可稳态运行，配合 INT8/INT4 量化（INT4 <4GB）能在消费级 GPU 甚至边缘端部署；结合 FlashAttention 2 与多线程并发，单机可服务多会话低延迟。