TL;DR
- 场景:面向 PDF/图文混排与知识库检索的实际业务
- 结论:以”视觉压缩→结构化→检索/记忆”三段式为主线
- 产出:研究议题清单、应用 Demo 方向、工程风险清单与错误速查卡
版本矩阵
| 项目/方向 | 状态 | 说明 |
|---|---|---|
| 上下文光学压缩→长记忆原型 | 否/规划中 | 基于”旧信息模糊压缩+新信息清晰保留”的分层记忆 |
| 跨模态信息抽取 | 部分/可复现 | 以图文页面直接输出表格/关键信息 |
| 行业专科模型 | 否/规划中 | 在通用模型上做领域微调与版式先验 |
| 蒸馏与小模型部署 | 否/规划中 | 目标:边缘设备 2-3× 压缩率 |
| PDF 智能助手 Demo | 部分/可复现 | PDF→Markdown→摘要/问答 |
| 多模态文档检索 | 部分/可复现 | 用文本/视觉 token 做统一 embedding |
| 光学压缩理论评估 | 否/研究议题 | 信息论度量与注意力热力图分析 |
研究路线
1. 无限长上下文的记忆机制
基于”旧信息模糊压缩+新信息清晰保留”的分层记忆,模拟人类记忆模式。
2. 跨模态信息抽取
图文混合信息抽取,从”识字”到”读懂”。
3. 更大规模与专业领域模型
- 3B→30B→100B 参数
- 领域微调:医疗、法律 OCR-VL
4. 模型压缩与蒸馏
5 亿参数的 Tiny 版 OCR 模型,边缘设备部署。
5. 视觉压缩的理论探索
信息论角度量化视觉 token 的信息量。
创新应用点子
1. PDF 智能助手
几行代码打造 PDF 问答 AI。
2. AI 学习笔记整理
手写笔记拍照转 Markdown 笔记。
3. 知识库光学压缩
用图像存储文本,查询时解码。
4. 多模态文档搜索
以图搜文、以文搜图。
5. 游戏式科普视频
“假如 AI 只看图书不看字,会发生什么?“
错误速查
| 症状 | 根因 | 修复 |
|---|---|---|
| PDF 转 Markdown 丢结构 | 版式复杂 | 增加版面分析 |
| 图表数值还原不准 | 曲线未语义化 | 专用评测集 |
| 长记忆问答前后矛盾 | 压缩策略不稳 | 再检索再解码 |
| 以图搜文召回低 | embedding 不对齐 | 对比学习蒸馏 |
| 边缘设备推理超时 | 模型过大 | 量化+蒸馏 |
| 数学/公式识别错漏 | token 化不稳 | LaTeX 约束生成 |
| 合规/隐私风险 | 敏感信息 | 敏感词检测 |