显存与部署
- FP16 精度:约 14GB 显存
- INT8/INT4 量化:<4GB
- 普通 PC 甚至高端手机均可运行
上下文窗口
- 默认:8192 tokens
- 长序列增强:32k tokens
- 实验版 Turbo:约 100 万 token
推理优化
- FlashAttention 2 加速(需 Ampere+ GPU)
- 支持 bfloat16 或 int8/int4 量化
并发能力
7B 模型可单机运行多个实例,高 QPS 低单位成本,适合企业级部署。
开源协议
Apache-2.0 协议,免费可商用。
性能表现
| 评测 | 得分 |
|---|---|
| OmniBench 综合 | 56.13% |
| MMLU | 71.0% |
| GSM8K | 88.7% |
| HumanEval | 78.7% |
成本
讨论 Apache-2.0 开源自建与云 API 两种方案。