共 1 篇文章
在 FP16≈14GB 显存下可稳态运行,配合 INT8/INT4 量化(INT4 <4GB)能在消费级 GPU 甚至边缘端部署;结合 FlashAttention 2 与多线程并发,单机可服务多会话低延迟。上下文默认 8k,长序 32k,实验系 Turbo 支持 ~1M token。文中罗列 Omni 在多模态综合/ASR/TTS/视觉/视频/MMLU/GSM8K/HumanEval 等评...