Tag: 性能

1 articles

AI Research 37 - Multimodal Large Model Quantization: Imp...

Model quantization compresses FP32 weights into low-precision representations, significantly reducing inference resource consumption. Experiments show quantized models have 60% lower latency and 70...

7/19/2025