显存与部署

  • FP16 精度:约 14GB 显存
  • INT8/INT4 量化:<4GB
  • 普通 PC 甚至高端手机均可运行

上下文窗口

  • 默认:8192 tokens
  • 长序列增强:32k tokens
  • 实验版 Turbo:约 100 万 token

推理优化

  • FlashAttention 2 加速(需 Ampere+ GPU)
  • 支持 bfloat16 或 int8/int4 量化

并发能力

7B 模型可单机运行多个实例,高 QPS 低单位成本,适合企业级部署。

开源协议

Apache-2.0 协议,免费可商用。

性能表现

评测得分
OmniBench 综合56.13%
MMLU71.0%
GSM8K88.7%
HumanEval78.7%

成本

讨论 Apache-2.0 开源自建与云 API 两种方案。