一、后训练量化(PTQ)
工作原理:训练完成后,使用校准数据(100-500样本)统计激活分布,确定量化参数(缩放因子、零点、量化范围),将FP32权重转换为INT8/INT4。
优势:高效快速(几小时完成)、无需训练、即插即用 局限:4-bit以下量化精度下降5-15%
二、量化感知训练(QAT)
核心机制:
- 前向传播模拟量化噪声
- 反向传播使用直通估计器(STE)传递梯度
- 渐进式量化、敏感层特殊处理
性能:INT8下精度损失<1%,相比PTQ精度提升5-15%
资源需求:
- 7B模型约需80GB显存
- 13B模型约需160GB显存
三、低比特量化技术(INT4/INT2)
技术挑战与方案
| 挑战 | 解决方案 |
|---|---|
| 信息损失 | 分组缩放(每组独立缩放因子) |
| 离群值 | 分离存储为FP16、聚类量化、非线性量化 |
| 精度下降 | QAT+STE、可学习缩放因子 |
性能数据
- ResNet50:INT4(GPTQ方法)74.6%(98%保留)
- LLaMA-13B:INT4(AWQ方法)困惑度10.31
实用建议
- >13B大模型:优先INT4,使用GPTQ/AWQ
- 7B以下模型:建议INT8,如需INT4应结合QAT
四、混合精度量化
主流方案
- W4A16(权重4-bit/激活16-bit):内存减少75%,精度损失<1%
- INT8:吞吐量提升2-4倍
- FP8(H100):减少类型转换开销
- AWQ:识别离群值相关权重保留高位宽
五、LoRA结合量化
QLoRA方案
- 量化阶段:GPTQ将权重转为INT4(13GB→3.5GB)
- 微调阶段:冻结量化权重,仅训练LoRA参数(0.2%原参数)
进阶方案对比
| 方法 | 核心创新 | 量化精度 | 效果 |
|---|---|---|---|
| QA-LoRA | 约束LoRA匹配量化分组 | 全INT4 | 98%准确率 |
| L4Q | 在线合并+联合优化 | 全INT4 | 比QLoRA提升2.5% |
资源对比
| 方案 | 显存占用 | 推理延迟 | 准确率 |
|---|---|---|---|
| 全参数FP16 | 100% | 1.0x | 100% |
| QLoRA | 15% | 1.2x | 95% |
| L4Q | 12% | 1.1x | 97% |
总结
| 技术 | 适用场景 | 优势 | 代价 |
|---|---|---|---|
| PTQ | 快速原型、临时部署 | 零训练成本 | 精度损失较大 |
| QAT | 高精度需求场景 | 保持95%+精度 | 需重新训练 |
| 混合精度 | 实时系统 | 智能资源分配 | 配置复杂 |
| QLoRA | 边缘设备+微调 | 75%内存节省 | 微调数据依赖 |
未来方向:自适应动态量化、条件计算量化、硬件感知设计