微光实验室 · 标签归档
共 1 篇文章,按主题汇总相关教程、案例、工程实践和阶段性总结。
在 FP16≈14GB 显存下可稳态运行,配合 INT8/INT4 量化(INT4 <4GB)能在消费级 GPU 甚至边缘端部署;结合 FlashAttention 2 与多线程并发,单机可服务多会话低延迟。