返回精选
AI 精选动态 智能评分 65

百度开源 Unlimited-OCR:一次性处理数百页文档

来源: twitter关注列表
作者: Berryxia.AI (@berryxia)
发布于: 2026-06-22
收录于: 2026-06-22
AI 推荐理由
差异点:R-SWA 解决长文档 OCR 中 KV Cache 爆炸问题,实现了真正的一镜到底处理。
核心解读
百度在 Hugging Face 发布 Unlimited-OCR,其核心创新 R-SWA(Reference Sliding Window Attention)使 KV Cache 在解码时保持恒定,支持一次性处理数百页文档。该模型在 OmniDocBench 上取得 93 分,比 DeepSeek-OCR 高 6 个百分点。
全文
这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。 它让模型在解码时KV Cache保持恒定,不会随着文档页数增加而爆炸式增长。 结果就是:一张图或者一本多页PDF,直接扔进去就能一次性解析完,速度和稳定性都比传统逐页处理的方式好很多。 在OmniDocBench上拿到了93分,比DeepSeek-OCR高出6个百分点。 这已经不是简单的准确率提升,而是把长文档OCR的工作流从“分块+外部调度器拼接”变成了真正的端到端一镜到底。 以前做多页文档最头疼的就是上下文断裂和格式不一致,现在模型能一次性看到整篇文档的结构、布局和逻辑关系,输出质量自然上了一个台阶。 这其实是把OCR从“认字工具”往“长文档理解引擎”又往前推了一大步。 技术路线很清晰,也很实用。 果然百度现在OCR独树一帜,遥遥领先了。 模型地址见评论区~ 👇 https://video.twimg.com/amplify_video/2069094075295555584/vid/avc1/1018x480/nybnoC1cHSXvSdKd.mp4?tag=28 > **引用原帖 Adina Yakup (@AdinaYakup):** > Unlimited-OCR 🔥New OCR from @PaddlePaddle > It can parse hundreds of pages in a single pass while maintaining stable speed. > The key idea is R-SWA (Reference Sliding Window Attention), which keeps KV cache constant during decoding. > 🏆 93% on OmniDocBench > 📈 +6% over DeepSeek-OCR > https://x.com/AdinaYakup/status/2069081754837614998 Berryxia.AI (@berryxia): https://t.co/wpqiYCRg3D
#技术突破#模型发布#大模型