返回精选
AI 精选动态 智能评分 60

百度开源 Unlimited OCR 模型:参考滑动窗口注意力技术

来源: twitter关注列表
作者: 小互 (@xiaohu)
发布于: 2026-06-24
收录于: 2026-06-24
AI 推荐理由
R-SWA 注意力机制区别于传统逐页处理,避免了上下文丢失,值得关注其实现细节及在长文档任务中的表现。
核心解读
百度开源 Unlimited OCR 模型,3B 参数、500M 激活,采用参考滑动窗口注意力(R-SWA)技术,可单次前向推理处理数十页文档,在 OmniDocBench v1.5 上准确率 93%,比 DeepSeek-OCR 基线高 6 个百分点。
全文
原样抄写几十页的 PDF,几乎所有模型都做不到 一种全新参考滑动窗口注意力(R-SWA)技术 能让模型像人类抄书一样“连抄几十页”,而不会造成其记忆混乱。 最新开源的 Unlimited OCR 模型: 可以模拟人类解析工作记忆的模式 3B大小 500M激活 但在标准 32K 上下文上 它可以一次前向推理能吞几十页文档,不用切页... 该模型由百度研发,据说是挖走DeepSeek OCR核心贡献者的新作 此前所有模型都无法通过一次前向推理完成数十页文档的解析。 因为传统 OCR 是一页一页跑,每跑完一页就清空记忆,最后再把各页结果拼起来 唯独人类可以连续的抄录数百页书籍而不停歇... Unlimited OCR,就是模拟人类抄书过程,使用了一种叫参考滑动窗口注意力(R-SWA)的技术 模型干活的时候,眼前有两样东西: 一样是"原件"(要识别的文档图,加上你给的指令) 一样是"它自己已经写出来的字" R-SWA 的规矩很简单,这两样区别对待: 原件,从头到尾一直完整看着,保证抄写位置不出错。 正在写的字,只看最近一小段(默认 128 个字),更早的就不管了,等于边写边忘。 好处是,它脑子里要记的东西,始终恒定那么多。不存在需要记的太多,脑子掉线的情况,所以不管文档多少页,显存和算力都不涨。 还能一直连续的的抄写文档... ![photo](https://pbs.twimg.com/media/HLjM64CbsAAzPm0.jpg) 小互 (@xiaohu): 它可以在单次处理中解析数百页文档, 同时保持不丢失速度 在OmniDocBench v1.5 上评测中准确率高达 93% 比原始 DeepSeek-OCR 基线高 6 个点 模型下载:https://t.co/gtgEIar29F GitHub:https://t.co/xAH990zPaD https://t.co/zTP1UMNNZW
#模型发布#技术突破