常用数据集与评估指标

1. Flickr30k

  • 规模:31,783张图片,每张5条描述
  • 任务:图像描述生成、跨模态检索
  • 指标:BLEU、METEOR、ROUGE-L、CIDEr、Recall@K

2. MS COCO

  • 规模:12万+图片,33万+描述
  • 任务:图像描述、视觉问答、图文检索
  • 指标:BLEU-1~4、METEOR、ROUGE-L、CIDEr

3. VQA(视觉问答)

  • 规模:20万图片,25万问答对
  • 评分机制:min(匹配参考答案数/3, 1)
  • 问题类型:是/否、计数、开放问题

4. ActivityNet

  • 规模:2万视频,10万描述
  • 任务:视频字幕生成、时间定位、问答
  • 指标:BLEU、METEOR、CIDEr、IoU@0.5

5. 其他数据集

数据集用途特点
MSRVTT视频描述1万视频片段
GQA视觉推理1100万问答对
OK-VQA常识问答需要外部知识
Hateful Memes仇恨检测图文隐含语义

量化评估框架

三维能力评估

  1. 视觉感知:目标检测mAP、图像分类Top-1/5准确率
  2. 语言生成:BLEU-4、METEOR、ROUGE、CIDEr
  3. 跨模态推理:VQA准确率、推理任务正确率

量化权衡建议

  • 移动端:可接受5%准确率下降换取3倍推理加速
  • 关键场景(医疗):精度损失控制在1%以内