AI 精选动态智能评分 72

古文字识别基准

来源: twitter关注列表

作者: ModelScope (@ModelScope2022)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

原文同时给出新基准、覆盖范围、以及 28 个模型的系统性对比结果，并揭示了 thinking mode 与感知失败之间的负相关，适合关注 OCR、长尾视觉和模型评测方法的人直接看原文。

核心解读

腾讯 HY 联合 4 家机构发布古汉字基准 Chronicles-OCR，用 2,800 张专家标注图像、覆盖 7 种书体（oracle bone、bronze、seal、clerical、regular、running、cursive），测试了 28 个前沿模型，时间跨度覆盖中国文字 3,000 年。结果显示，最佳 VLLM 在 oracle bone script recognition 上仅 14%；端到端检测在古文字上大幅失效，最佳 H-mean 只有 16.5，GPT-5 和 Gemini 2.5 Pro 近乎为 0。研究还发现，thinking mode 会在几乎所有模型上进一步恶化表现，古文字分类 96.7% 的高分更多来自识别龟甲和青铜器等载体，而不是字符本身。

#基准测试#研究突破#多模态

阅读原始全文