前置知识

  • Transformer 架构基础
  • 多模态模型(CLIP、BLIP、LayoutLMv2)
  • 传统 OCR 方法(Tesseract、EasyOCR、PaddleOCR)
  • PyTorch/HuggingFace 技能

快速上手

  1. 环境搭建
  2. 模型加载
  3. 输出解析(文本/坐标/标记)
  4. 参数试验(base_size、crop_mode、Prompt)
  5. 文档阅读与代码走读

训练与微调

  • 数据准备
  • 理解原始训练策略
  • 选择训练方式(freeze encoder/LoRA)
  • 超参数设置
  • 评估

部署选项

  • Web 应用
  • 办公系统集成
  • AI 助手工具
  • 边缘/私有部署
  • 二次开发

错误排查

  • 安装失败
  • 推理慢
  • CUDA OOM
  • 坐标对齐错误
  • 中文乱码
  • 权重下载失败
  • 表格/版面问题
  • 微调问题

学习策略

“先跑通 → 再定制”策略,推荐小步迭代的微调方式而非全量重训练。