返回精选
AI 精选动态 智能评分 60

评测百度开源 PP-OCRv6

来源: twitter关注列表
作者: 凡人小北 (@frxiaobei)
发布于: 2026-06-16
收录于: 2026-06-16
AI 推荐理由
差异点:以 34.5M 参数实现 93.2% 精确匹配率,超越 235B 大模型,适合端侧和低成本部署。
核心解读
百度开源 PP-OCRv6,包含 Tiny (1.5M)、Small (7.7M)、Medium (34.5M) 三档,支持 50 种语言。作者测试 Medium 在 Mac CPU 上表现良好,精确匹配率 93.2%,高于 Qwen3-VL-235B 的 80.6%;Tiny 可在浏览器运行,CPU 单图最快 97 毫秒。
全文
我把刚开源的 PP-OCRv6 考了一遍,34.5M 居然跑赢了 235B。 这两年大模型越做越大,好像连读张图上的字,都得丢给一个几百 B 的多模态大模型。可我一直有个疑问,OCR 这件最朴素的事,未来真得越做越大吗。 百度上周开源的 PP-OCRv6 给了个反过来的答案。它一次出了三档,按官方定位,Tiny 只有 1.5M,给浏览器和端侧用;Small 7.7M,对手机和桌面;Medium 34.5M,对服务器,也是三档里最准的一档。三档都认五十种语言,tiny 是四十九种。我挑了最准的 Medium,装进自己 Mac,纯 CPU 跑了一遍。 先说结论,这么小的模型,日常这些图读得又准又稳。 一张洇着红污渍的旧登机牌,航班、姓名、长票号一字不差;手机截图里的状态栏、搜索框、一长串地名也都挑了出来;印刷的课本表格更不在话下,规整的手写它也能认对。真正难倒它的,只有那种连我肉眼都认不全的连笔草书。毕竟它是老老实实读字的,不替你瞎猜。 ![photo](https://pbs.twimg.com/media/HK7Xz7PaMAE3eNx.jpg) ![photo](https://pbs.twimg.com/media/HK7X0hUbAAA2vdV.jpg) 凡人小北 (@frxiaobei): 对个人,是隐私。 这两年越来越多人在搭自己的私有化 AI 助理,想用它管钱、管健康。可那些最私密的数据,大多躺在发票、账单、体检报告的 PDF 和照片里,要让 AI 接手,第一步得先把图读成字。这一步能在本地做完、数据不出门,才谈得上真正的私有化。 对公司,是成本。 尤其面向 C 端、要给海量用户读图的产品,过去 OCR 大多挂在云端,接入的人越多、图越多,账单越厚。现在把识别前置到端侧、甚至用户的浏览器里,省掉的是一笔笔云端调用费、一张张 GPU 账单和高并发的压力。那条一路往上涨的成本曲线,被摁住了。 PP-OCR 这一套,如今也是文心大模型多模态能力的重要组成部分,给文心的视觉理解垫了块底。 所以回到开头那个问题。 OCR 的未来,不一定是越来越大的 VLM。把一件确定的事做到极致的小模型,再让它跑在离数据最近的地方,才是真正缺的那块。大模型负责想,可想之前,总得先把眼前这张图看清楚,还最好别把它传出去。 凡人小北 (@frxiaobei): 还有个数最戳我。大模型读字爱脑补,会把图里没有的字按语感补出来。论文里那项精确匹配率,PP-OCRv6 是 93.2%,Qwen3-VL-235B 只有 80.6%。读字要的不是聪明,是忠实。 更关键的是那档最小的 Tiny,只有 1.5M,专为端侧和浏览器做。 我把它也在本机跑了一遍,比 Medium 还快了快一个数量级,小图直接零点零几秒。它为了轻和快,准度比 Medium 让一档,但端侧场景够用。 官方给的成绩是 CPU 单图最快 0.097 秒,也就是 97 毫秒,跟我这边小图的手感正好对得上。 这么小,图不用上传云端,在你自己的设备上就读完了。有开发者说,它可能是眼下唯一能在浏览器里跑、精度还拿得出手的 OCR。 同一张街景换 1.5M 的 Tiny 跑:本机 0.38 秒,照样读对。 这一下打开两件事,一个对个人,一个对公司。
#模型发布#开源#比较