一、后训练量化(PTQ)

工作原理:训练完成后,使用校准数据(100-500样本)统计激活分布,确定量化参数(缩放因子、零点、量化范围),将FP32权重转换为INT8/INT4。

优势:高效快速(几小时完成)、无需训练、即插即用 局限:4-bit以下量化精度下降5-15%

二、量化感知训练(QAT)

核心机制

  • 前向传播模拟量化噪声
  • 反向传播使用直通估计器(STE)传递梯度
  • 渐进式量化、敏感层特殊处理

性能:INT8下精度损失<1%,相比PTQ精度提升5-15%

资源需求

  • 7B模型约需80GB显存
  • 13B模型约需160GB显存

三、低比特量化技术(INT4/INT2)

技术挑战与方案

挑战解决方案
信息损失分组缩放(每组独立缩放因子)
离群值分离存储为FP16、聚类量化、非线性量化
精度下降QAT+STE、可学习缩放因子

性能数据

  • ResNet50:INT4(GPTQ方法)74.6%(98%保留)
  • LLaMA-13B:INT4(AWQ方法)困惑度10.31

实用建议

  • >13B大模型:优先INT4,使用GPTQ/AWQ
  • 7B以下模型:建议INT8,如需INT4应结合QAT

四、混合精度量化

主流方案

  1. W4A16(权重4-bit/激活16-bit):内存减少75%,精度损失<1%
  2. INT8:吞吐量提升2-4倍
  3. FP8(H100):减少类型转换开销
  4. AWQ:识别离群值相关权重保留高位宽

五、LoRA结合量化

QLoRA方案

  1. 量化阶段:GPTQ将权重转为INT4(13GB→3.5GB)
  2. 微调阶段:冻结量化权重,仅训练LoRA参数(0.2%原参数)

进阶方案对比

方法核心创新量化精度效果
QA-LoRA约束LoRA匹配量化分组全INT498%准确率
L4Q在线合并+联合优化全INT4比QLoRA提升2.5%

资源对比

方案显存占用推理延迟准确率
全参数FP16100%1.0x100%
QLoRA15%1.2x95%
L4Q12%1.1x97%

总结

技术适用场景优势代价
PTQ快速原型、临时部署零训练成本精度损失较大
QAT高精度需求场景保持95%+精度需重新训练
混合精度实时系统智能资源分配配置复杂
QLoRA边缘设备+微调75%内存节省微调数据依赖

未来方向:自适应动态量化、条件计算量化、硬件感知设计