AI 精选动态
智能评分 60
百度开源 Unlimited OCR 模型:参考滑动窗口注意力技术
AI 推荐理由
R-SWA 注意力机制区别于传统逐页处理,避免了上下文丢失,值得关注其实现细节及在长文档任务中的表现。核心解读
百度开源 Unlimited OCR 模型,3B 参数、500M 激活,采用参考滑动窗口注意力(R-SWA)技术,可单次前向推理处理数十页文档,在 OmniDocBench v1.5 上准确率 93%,比 DeepSeek-OCR 基线高 6 个百分点。
全文
原样抄写几十页的 PDF,几乎所有模型都做不到
一种全新参考滑动窗口注意力(R-SWA)技术
能让模型像人类抄书一样“连抄几十页”,而不会造成其记忆混乱。
最新开源的 Unlimited OCR 模型:
可以模拟人类解析工作记忆的模式
3B大小 500M激活
但在标准 32K 上下文上
它可以一次前向推理能吞几十页文档,不用切页...
该模型由百度研发,据说是挖走DeepSeek OCR核心贡献者的新作
此前所有模型都无法通过一次前向推理完成数十页文档的解析。
因为传统 OCR 是一页一页跑,每跑完一页就清空记忆,最后再把各页结果拼起来
唯独人类可以连续的抄录数百页书籍而不停歇...
Unlimited OCR,就是模拟人类抄书过程,使用了一种叫参考滑动窗口注意力(R-SWA)的技术
模型干活的时候,眼前有两样东西:
一样是"原件"(要识别的文档图,加上你给的指令)
一样是"它自己已经写出来的字"
R-SWA 的规矩很简单,这两样区别对待:
原件,从头到尾一直完整看着,保证抄写位置不出错。
正在写的字,只看最近一小段(默认 128 个字),更早的就不管了,等于边写边忘。
好处是,它脑子里要记的东西,始终恒定那么多。不存在需要记的太多,脑子掉线的情况,所以不管文档多少页,显存和算力都不涨。
还能一直连续的的抄写文档...

小互 (@xiaohu): 它可以在单次处理中解析数百页文档,
同时保持不丢失速度
在OmniDocBench v1.5 上评测中准确率高达 93%
比原始 DeepSeek-OCR 基线高 6 个点
模型下载:https://t.co/gtgEIar29F
GitHub:https://t.co/xAH990zPaD https://t.co/zTP1UMNNZW