一、BLIP-2

机构:Salesforce Research

核心架构创新

  1. 双冻结策略:同时冻结预训练的视觉编码器和语言模型,仅训练中间的轻量级查询Transformer(Q-Former)
  2. 参数高效设计:Q-Former通常为12层结构,参数量约数千万
  3. 两阶段训练流程:第一阶段图像-文本对比学习对齐特征;第二阶段生成式任务微调

性能表现

  • 零样本VQAv2基准测试:BLIP-2(基于Flan-T5 XXL)达到82.4%准确率
  • COCO Caption任务:CIDEr得分达到136.7

模型配置选项

配置语言模型参数量
大型Flan-T5 XXL约110亿
中型Flan-T5 XL约30亿
小型OPT系列约2.7B

二、MiniGPT-4

机构:KAUST(阿卜杜拉国王科技大学)

架构设计

  • 视觉编码前端:使用预训练的CLIP ViT-g等视觉模型提取图像特征
  • 投影层:通过简单的线性投影层将视觉特征映射到语言模型空间
  • 语言模型后端:对接预训练的Vicuna-13B大语言模型

两阶段训练方案

  • 第一阶段:使用约500万对常规图像-文本描述数据对齐
  • 第二阶段:使用高质量对话式图文数据进行微调

参数规模

  • 13B版本:基于Vicuna-13B,实际需训练参数量仅约几百万

三、Flamingo

机构:DeepMind

技术特点

  • 架构:大型语言模型(80B或更大)与视觉编码模块通过跨注意力融合
  • 核心能力:支持对任意图像-文本序列进行few-shot学习

局限性

  • 80B参数巨大,训练使用海量私有数据
  • 模型本身没有完全开源

四、LLaVA

机构:开源社区

技术特点

  • 典型配置:LLaVA-13B约130亿参数
  • 视觉部分:CLIP ViT-L/14
  • 语言部分:基于LLaMA架构改造
  • 训练方法:使用GPT-4生成的图文对话数据进行指令微调

部署优势

  • 13B参数规模可在消费级GPU(如RTX 3090)上运行
  • 社区提供完整的微调工具链

五、Qwen2.5-VL

机构:阿里巴巴

模型规模选择

版本参数规模适用场景
基础版3B移动设备和边缘计算
标准版7B中小企业,成本与效果平衡
旗舰版72B复杂视觉推理任务

技术特点

  1. 跨模态理解能力:支持同时处理图像、文本、视频等多种输入
  2. OCR能力:对复杂场景识别准确率达92%以上
  3. 长上下文处理:支持长达32k tokens上下文窗口

六、总结对比

模型核心创新参数量级
BLIP-2轻量化Q-Former设计3B-110B
MiniGPT-4极简单层线性映射7B-13B
Flamingo交叉注意力few-shot80B+
LLaVA指令微调对话优化13B
Qwen2.5-VL工业级长上下文3B-72B

社区发展趋势

  1. 主流选择:7B-13B模型因兼顾效果与部署成本成为主流
  2. 量化热点:INT8/INT4量化成为社区关注重点
  3. 成功案例
    • BLIP-2 INT8量化后显存下降37%
    • MiniGPT-4 INT4版本可在RTX 3060上运行