TL;DR

  • 场景:面向 PDF/图文混排与知识库检索的实际业务
  • 结论:以”视觉压缩→结构化→检索/记忆”三段式为主线
  • 产出:研究议题清单、应用 Demo 方向、工程风险清单与错误速查卡

版本矩阵

项目/方向状态说明
上下文光学压缩→长记忆原型否/规划中基于”旧信息模糊压缩+新信息清晰保留”的分层记忆
跨模态信息抽取部分/可复现以图文页面直接输出表格/关键信息
行业专科模型否/规划中在通用模型上做领域微调与版式先验
蒸馏与小模型部署否/规划中目标:边缘设备 2-3× 压缩率
PDF 智能助手 Demo部分/可复现PDF→Markdown→摘要/问答
多模态文档检索部分/可复现用文本/视觉 token 做统一 embedding
光学压缩理论评估否/研究议题信息论度量与注意力热力图分析

研究路线

1. 无限长上下文的记忆机制

基于”旧信息模糊压缩+新信息清晰保留”的分层记忆,模拟人类记忆模式。

2. 跨模态信息抽取

图文混合信息抽取,从”识字”到”读懂”。

3. 更大规模与专业领域模型

  • 3B→30B→100B 参数
  • 领域微调:医疗、法律 OCR-VL

4. 模型压缩与蒸馏

5 亿参数的 Tiny 版 OCR 模型,边缘设备部署。

5. 视觉压缩的理论探索

信息论角度量化视觉 token 的信息量。

创新应用点子

1. PDF 智能助手

几行代码打造 PDF 问答 AI。

2. AI 学习笔记整理

手写笔记拍照转 Markdown 笔记。

3. 知识库光学压缩

用图像存储文本,查询时解码。

4. 多模态文档搜索

以图搜文、以文搜图。

5. 游戏式科普视频

“假如 AI 只看图书不看字,会发生什么?“

错误速查

症状根因修复
PDF 转 Markdown 丢结构版式复杂增加版面分析
图表数值还原不准曲线未语义化专用评测集
长记忆问答前后矛盾压缩策略不稳再检索再解码
以图搜文召回低embedding 不对齐对比学习蒸馏
边缘设备推理超时模型过大量化+蒸馏
数学/公式识别错漏token 化不稳LaTeX 约束生成
合规/隐私风险敏感信息敏感词检测