AI 精选动态智能评分 60

评测百度开源 PP-OCRv6

来源: twitter关注列表

作者: 凡人小北 (@frxiaobei)

发布于: 2026-06-16

收录于: 2026-06-16

AI 推荐理由

差异点：以 34.5M 参数实现 93.2% 精确匹配率，超越 235B 大模型，适合端侧和低成本部署。

核心解读

百度开源 PP-OCRv6，包含 Tiny (1.5M)、Small (7.7M)、Medium (34.5M) 三档，支持 50 种语言。作者测试 Medium 在 Mac CPU 上表现良好，精确匹配率 93.2%，高于 Qwen3-VL-235B 的 80.6%；Tiny 可在浏览器运行，CPU 单图最快 97 毫秒。

全文

我把刚开源的 PP-OCRv6 考了一遍，34.5M 居然跑赢了 235B。这两年大模型越做越大，好像连读张图上的字，都得丢给一个几百 B 的多模态大模型。可我一直有个疑问，OCR 这件最朴素的事，未来真得越做越大吗。百度上周开源的 PP-OCRv6 给了个反过来的答案。它一次出了三档，按官方定位，Tiny 只有 1.5M，给浏览器和端侧用；Small 7.7M，对手机和桌面；Medium 34.5M，对服务器，也是三档里最准的一档。三档都认五十种语言，tiny 是四十九种。我挑了最准的 Medium，装进自己 Mac，纯 CPU 跑了一遍。先说结论，这么小的模型，日常这些图读得又准又稳。一张洇着红污渍的旧登机牌，航班、姓名、长票号一字不差；手机截图里的状态栏、搜索框、一长串地名也都挑了出来；印刷的课本表格更不在话下，规整的手写它也能认对。真正难倒它的，只有那种连我肉眼都认不全的连笔草书。毕竟它是老老实实读字的，不替你瞎猜。 ![photo](https://pbs.twimg.com/media/HK7Xz7PaMAE3eNx.jpg) ![photo](https://pbs.twimg.com/media/HK7X0hUbAAA2vdV.jpg) 凡人小北 (@frxiaobei): 对个人，是隐私。这两年越来越多人在搭自己的私有化 AI 助理，想用它管钱、管健康。可那些最私密的数据，大多躺在发票、账单、体检报告的 PDF 和照片里，要让 AI 接手，第一步得先把图读成字。这一步能在本地做完、数据不出门，才谈得上真正的私有化。对公司，是成本。尤其面向 C 端、要给海量用户读图的产品，过去 OCR 大多挂在云端，接入的人越多、图越多，账单越厚。现在把识别前置到端侧、甚至用户的浏览器里，省掉的是一笔笔云端调用费、一张张 GPU 账单和高并发的压力。那条一路往上涨的成本曲线，被摁住了。 PP-OCR 这一套，如今也是文心大模型多模态能力的重要组成部分，给文心的视觉理解垫了块底。所以回到开头那个问题。 OCR 的未来，不一定是越来越大的 VLM。把一件确定的事做到极致的小模型，再让它跑在离数据最近的地方，才是真正缺的那块。大模型负责想，可想之前，总得先把眼前这张图看清楚，还最好别把它传出去。凡人小北 (@frxiaobei): 还有个数最戳我。大模型读字爱脑补，会把图里没有的字按语感补出来。论文里那项精确匹配率，PP-OCRv6 是 93.2%，Qwen3-VL-235B 只有 80.6%。读字要的不是聪明，是忠实。更关键的是那档最小的 Tiny，只有 1.5M，专为端侧和浏览器做。我把它也在本机跑了一遍，比 Medium 还快了快一个数量级，小图直接零点零几秒。它为了轻和快，准度比 Medium 让一档，但端侧场景够用。官方给的成绩是 CPU 单图最快 0.097 秒，也就是 97 毫秒，跟我这边小图的手感正好对得上。这么小，图不用上传云端，在你自己的设备上就读完了。有开发者说，它可能是眼下唯一能在浏览器里跑、精度还拿得出手的 OCR。同一张街景换 1.5M 的 Tiny 跑：本机 0.38 秒，照样读对。这一下打开两件事，一个对个人，一个对公司。

#模型发布#开源#比较

阅读原始全文