AI-调查研究-38-多模态大模型量化主流视觉语言任务的量化评估策略分析

2025/7/20

人工智能 ai 多模态大模型量化评估

常用数据集与评估指标

1. Flickr30k

规模：31,783张图片，每张5条描述
任务：图像描述生成、跨模态检索
指标：BLEU、METEOR、ROUGE-L、CIDEr、Recall@K

2. MS COCO

规模：12万+图片，33万+描述
任务：图像描述、视觉问答、图文检索
指标：BLEU-1~4、METEOR、ROUGE-L、CIDEr

3. VQA（视觉问答）

规模：20万图片，25万问答对
评分机制：min(匹配参考答案数/3, 1)
问题类型：是/否、计数、开放问题

4. ActivityNet

规模：2万视频，10万描述
任务：视频字幕生成、时间定位、问答
指标：BLEU、METEOR、CIDEr、IoU@0.5

5. 其他数据集

数据集	用途	特点
MSRVTT	视频描述	1万视频片段
GQA	视觉推理	1100万问答对
OK-VQA	常识问答	需要外部知识
Hateful Memes	仇恨检测	图文隐含语义

量化评估框架

三维能力评估：

视觉感知：目标检测mAP、图像分类Top-1/5准确率
语言生成：BLEU-4、METEOR、ROUGE、CIDEr
跨模态推理：VQA准确率、推理任务正确率

量化权衡建议：

移动端：可接受5%准确率下降换取3倍推理加速
关键场景（医疗）：精度损失控制在1%以内