AI 精选动态智能评分 78

Chronicles-OCR 基准测试

来源: twitter关注列表

作者: Berryxia.AI (@berryxia)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

建议重点看原文的任务定义与评测细节，这组结果首次把古文字识别中“看见载体而非识别文字”的失败模式量化出来，且对 reasoning 机制在感知任务中的副作用有直接证据。

核心解读

腾讯HY实验室联合4家机构发布古文字识别基准 Chronicles-OCR，用于评测 AI 对跨越3000年中国古文字的识别能力。该基准包含2800张专家标注图像，覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书7类。28个前沿多模态模型在任务上表现不佳：最强的 VLLM 在甲骨文识别上准确率仅14%，端到端检测的最高 H-mean 只有16.5%，GPT-5 和 Gemini 2.5 Pro 接近0；开启 reasoning 模式后，多数模型表现反而更差。

#基准测试#多模态#研究突破

阅读原始全文