AI 精选动态智能评分 60

百度开源 Unlimited OCR 模型：参考滑动窗口注意力技术

来源: twitter关注列表

作者: 小互 (@xiaohu)

发布于: 2026-06-24

收录于: 2026-06-24

AI 推荐理由

R-SWA 注意力机制区别于传统逐页处理，避免了上下文丢失，值得关注其实现细节及在长文档任务中的表现。

核心解读

百度开源 Unlimited OCR 模型，3B 参数、500M 激活，采用参考滑动窗口注意力（R-SWA）技术，可单次前向推理处理数十页文档，在 OmniDocBench v1.5 上准确率 93%，比 DeepSeek-OCR 基线高 6 个百分点。

全文

原样抄写几十页的 PDF，几乎所有模型都做不到一种全新参考滑动窗口注意力（R-SWA）技术能让模型像人类抄书一样“连抄几十页”，而不会造成其记忆混乱。最新开源的 Unlimited OCR 模型：可以模拟人类解析工作记忆的模式 3B大小 500M激活但在标准 32K 上下文上它可以一次前向推理能吞几十页文档，不用切页... 该模型由百度研发，据说是挖走DeepSeek OCR核心贡献者的新作此前所有模型都无法通过一次前向推理完成数十页文档的解析。因为传统 OCR 是一页一页跑，每跑完一页就清空记忆，最后再把各页结果拼起来唯独人类可以连续的抄录数百页书籍而不停歇... Unlimited OCR，就是模拟人类抄书过程，使用了一种叫参考滑动窗口注意力（R-SWA）的技术模型干活的时候,眼前有两样东西: 一样是"原件"(要识别的文档图,加上你给的指令) 一样是"它自己已经写出来的字" R-SWA 的规矩很简单，这两样区别对待：原件，从头到尾一直完整看着，保证抄写位置不出错。正在写的字，只看最近一小段(默认 128 个字)，更早的就不管了，等于边写边忘。好处是，它脑子里要记的东西，始终恒定那么多。不存在需要记的太多，脑子掉线的情况，所以不管文档多少页，显存和算力都不涨。还能一直连续的的抄写文档... ![photo](https://pbs.twimg.com/media/HLjM64CbsAAzPm0.jpg) 小互 (@xiaohu): 它可以在单次处理中解析数百页文档，同时保持不丢失速度在OmniDocBench v1.5 上评测中准确率高达 93% 比原始 DeepSeek-OCR 基线高 6 个点模型下载：https://t.co/gtgEIar29F GitHub：https://t.co/xAH990zPaD https://t.co/zTP1UMNNZW

#模型发布#技术突破

阅读原始全文