6.4
深览指数
科技量子位··AI 生成
一次吃下一本书!百度开源新OCR,作者疑似前DeepSeek研究员
百度开源了全新的OCR模型Unlimited OCR,核心创新在于参考滑动窗口注意力机制(R-SWA),使模型能像人一样连续阅读整本书,而非逐页处理拼接。该模型在OmniDocBench上刷新SOTA,显存占用和计算开销不随文档长度增长,推理速度提升约35%。文章还讨论了该模型背后“让模型学会遗忘”的长上下文思路,并暗示其可能通往语音识别等更通用的长期记忆范式。适合关注AI前沿技术、模型架构创新的读者。原文 ↗
核心观点
- ▍百度开源OCR模型Unlimited OCR的核心创新是参考滑动窗口注意力(R-SWA),通过让模型“遗忘”早期输出文本来管理记忆,实现连续阅读超长文档,且KV Cache保持恒定,显存和计算成本不随长度增长。
- ▍该论文的真正价值可能超出OCR本身,它修改了注意力机制本身,为长上下文任务提供了一条与主流“扩容”思路不同的路径:让模型学会像人一样遗忘。
- 01Unlimited OCR在OmniDocBench v1.5上取得93.23%综合得分,相比DeepSeek OCR提升6.22%;在v1.6上分数达93.92%,刷新SOTA。
- 02在测试集中,对于40页以上的文档,模型Distinct-35指标达到96.90%,编辑距离维持在0.1069以下,表现稳定。
- 03生成6000个Token时,Unlimited OCR的推理速度相比DeepSeek OCR提升约35%,且延迟稳定,没有长文档场景下的飙升现象。
- 04R-SWA机制允许模型在生成每个Token时始终关注所有视觉Token和提示词(Reference Tokens),但在输出端只保留最近128个历史Token参与注意力计算。
- 05Unlimited OCR沿用了DeepSeek OCR中提出的DeepEncoder高压缩率视觉编码器。
- 06论文团队计划将R-SWA扩展到语音识别、机器翻译等任务,并计划训练更长上下文版本(128K),以及构建类似“预填池”的机制。
反方 / 局限
- — 文章为技术报道性质,未提及Unlimited OCR在识别手写体、多语言混合文档、复杂表格等细分场景下的局限性。
- — 当前R-SWA的窗口大小被设为128,该数值是否最优、对不同长度或类型文档是否需要动态调整,文中未做深入探讨。
12 分钟 · 3 卡片 · 8 资料
读原文 →