常用数据集与评估指标
1. Flickr30k
- 规模:31,783张图片,每张5条描述
- 任务:图像描述生成、跨模态检索
- 指标:BLEU、METEOR、ROUGE-L、CIDEr、Recall@K
2. MS COCO
- 规模:12万+图片,33万+描述
- 任务:图像描述、视觉问答、图文检索
- 指标:BLEU-1~4、METEOR、ROUGE-L、CIDEr
3. VQA(视觉问答)
- 规模:20万图片,25万问答对
- 评分机制:min(匹配参考答案数/3, 1)
- 问题类型:是/否、计数、开放问题
4. ActivityNet
- 规模:2万视频,10万描述
- 任务:视频字幕生成、时间定位、问答
- 指标:BLEU、METEOR、CIDEr、IoU@0.5
5. 其他数据集
| 数据集 | 用途 | 特点 |
|---|---|---|
| MSRVTT | 视频描述 | 1万视频片段 |
| GQA | 视觉推理 | 1100万问答对 |
| OK-VQA | 常识问答 | 需要外部知识 |
| Hateful Memes | 仇恨检测 | 图文隐含语义 |
量化评估框架
三维能力评估:
- 视觉感知:目标检测mAP、图像分类Top-1/5准确率
- 语言生成:BLEU-4、METEOR、ROUGE、CIDEr
- 跨模态推理:VQA准确率、推理任务正确率
量化权衡建议:
- 移动端:可接受5%准确率下降换取3倍推理加速
- 关键场景(医疗):精度损失控制在1%以内