一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

6.4

深览指数

科技量子位·1小时前·AI 生成

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

百度开源了全新的OCR模型Unlimited OCR，核心创新在于参考滑动窗口注意力机制（R-SWA），使模型能像人一样连续阅读整本书，而非逐页处理拼接。该模型在OmniDocBench上刷新SOTA，显存占用和计算开销不随文档长度增长，推理速度提升约35%。文章还讨论了该模型背后“让模型学会遗忘”的长上下文思路，并暗示其可能通往语音识别等更通用的长期记忆范式。适合关注AI前沿技术、模型架构创新的读者。原文 ↗原文 ↗

核心观点

▍百度开源OCR模型Unlimited OCR的核心创新是参考滑动窗口注意力（R-SWA），通过让模型“遗忘”早期输出文本来管理记忆，实现连续阅读超长文档，且KV Cache保持恒定，显存和计算成本不随长度增长。
▍该论文的真正价值可能超出OCR本身，它修改了注意力机制本身，为长上下文任务提供了一条与主流“扩容”思路不同的路径：让模型学会像人一样遗忘。

01Unlimited OCR在OmniDocBench v1.5上取得93.23%综合得分，相比DeepSeek OCR提升6.22%；在v1.6上分数达93.92%，刷新SOTA。
02在测试集中，对于40页以上的文档，模型Distinct-35指标达到96.90%，编辑距离维持在0.1069以下，表现稳定。
03生成6000个Token时，Unlimited OCR的推理速度相比DeepSeek OCR提升约35%，且延迟稳定，没有长文档场景下的飙升现象。
04R-SWA机制允许模型在生成每个Token时始终关注所有视觉Token和提示词（Reference Tokens），但在输出端只保留最近128个历史Token参与注意力计算。
05Unlimited OCR沿用了DeepSeek OCR中提出的DeepEncoder高压缩率视觉编码器。
06论文团队计划将R-SWA扩展到语音识别、机器翻译等任务，并计划训练更长上下文版本（128K），以及构建类似“预填池”的机制。

反方 / 局限

— 文章为技术报道性质，未提及Unlimited OCR在识别手写体、多语言混合文档、复杂表格等细分场景下的局限性。
— 当前R-SWA的窗口大小被设为128，该数值是否最优、对不同长度或类型文档是否需要动态调整，文中未做深入探讨。

百度 Unlimited OCR 参考滑动窗口注意力 DeepSeek OCR OmniDocBench DeepEncoder 魏浩然阶跃星辰 GOT-OCR2.0

12 分钟 · 3 卡片 · 8 资料

读原文 →

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

前置背景

平行视角

延伸追问