一、BLIP-2
机构:Salesforce Research
核心架构创新
- 双冻结策略:同时冻结预训练的视觉编码器和语言模型,仅训练中间的轻量级查询Transformer(Q-Former)
- 参数高效设计:Q-Former通常为12层结构,参数量约数千万
- 两阶段训练流程:第一阶段图像-文本对比学习对齐特征;第二阶段生成式任务微调
性能表现
- 零样本VQAv2基准测试:BLIP-2(基于Flan-T5 XXL)达到82.4%准确率
- COCO Caption任务:CIDEr得分达到136.7
模型配置选项
| 配置 | 语言模型 | 参数量 |
|---|---|---|
| 大型 | Flan-T5 XXL | 约110亿 |
| 中型 | Flan-T5 XL | 约30亿 |
| 小型 | OPT系列 | 约2.7B |
二、MiniGPT-4
机构:KAUST(阿卜杜拉国王科技大学)
架构设计
- 视觉编码前端:使用预训练的CLIP ViT-g等视觉模型提取图像特征
- 投影层:通过简单的线性投影层将视觉特征映射到语言模型空间
- 语言模型后端:对接预训练的Vicuna-13B大语言模型
两阶段训练方案
- 第一阶段:使用约500万对常规图像-文本描述数据对齐
- 第二阶段:使用高质量对话式图文数据进行微调
参数规模
- 13B版本:基于Vicuna-13B,实际需训练参数量仅约几百万
三、Flamingo
机构:DeepMind
技术特点
- 架构:大型语言模型(80B或更大)与视觉编码模块通过跨注意力融合
- 核心能力:支持对任意图像-文本序列进行few-shot学习
局限性
- 80B参数巨大,训练使用海量私有数据
- 模型本身没有完全开源
四、LLaVA
机构:开源社区
技术特点
- 典型配置:LLaVA-13B约130亿参数
- 视觉部分:CLIP ViT-L/14
- 语言部分:基于LLaMA架构改造
- 训练方法:使用GPT-4生成的图文对话数据进行指令微调
部署优势
- 13B参数规模可在消费级GPU(如RTX 3090)上运行
- 社区提供完整的微调工具链
五、Qwen2.5-VL
机构:阿里巴巴
模型规模选择
| 版本 | 参数规模 | 适用场景 |
|---|---|---|
| 基础版 | 3B | 移动设备和边缘计算 |
| 标准版 | 7B | 中小企业,成本与效果平衡 |
| 旗舰版 | 72B | 复杂视觉推理任务 |
技术特点
- 跨模态理解能力:支持同时处理图像、文本、视频等多种输入
- OCR能力:对复杂场景识别准确率达92%以上
- 长上下文处理:支持长达32k tokens上下文窗口
六、总结对比
| 模型 | 核心创新 | 参数量级 |
|---|---|---|
| BLIP-2 | 轻量化Q-Former设计 | 3B-110B |
| MiniGPT-4 | 极简单层线性映射 | 7B-13B |
| Flamingo | 交叉注意力few-shot | 80B+ |
| LLaVA | 指令微调对话优化 | 13B |
| Qwen2.5-VL | 工业级长上下文 | 3B-72B |
社区发展趋势
- 主流选择:7B-13B模型因兼顾效果与部署成本成为主流
- 量化热点:INT8/INT4量化成为社区关注重点
- 成功案例:
- BLIP-2 INT8量化后显存下降37%
- MiniGPT-4 INT4版本可在RTX 3060上运行