前置知识
- Transformer 架构基础
- 多模态模型(CLIP、BLIP、LayoutLMv2)
- 传统 OCR 方法(Tesseract、EasyOCR、PaddleOCR)
- PyTorch/HuggingFace 技能
快速上手
- 环境搭建
- 模型加载
- 输出解析(文本/坐标/标记)
- 参数试验(base_size、crop_mode、Prompt)
- 文档阅读与代码走读
训练与微调
- 数据准备
- 理解原始训练策略
- 选择训练方式(freeze encoder/LoRA)
- 超参数设置
- 评估
部署选项
- Web 应用
- 办公系统集成
- AI 助手工具
- 边缘/私有部署
- 二次开发
错误排查
- 安装失败
- 推理慢
- CUDA OOM
- 坐标对齐错误
- 中文乱码
- 权重下载失败
- 表格/版面问题
- 微调问题
学习策略
“先跑通 → 再定制”策略,推荐小步迭代的微调方式而非全量重训练。