返回精选
AI 精选动态 智能评分 78

Chronicles-OCR 基准测试

来源: twitter关注列表
作者: Berryxia.AI (@berryxia)
发布于: 2026-05-27
收录于: 2026-05-27
AI 推荐理由
建议重点看原文的任务定义与评测细节,这组结果首次把古文字识别中“看见载体而非识别文字”的失败模式量化出来,且对 reasoning 机制在感知任务中的副作用有直接证据。
核心解读
腾讯HY实验室联合4家机构发布古文字识别基准 Chronicles-OCR,用于评测 AI 对跨越3000年中国古文字的识别能力。该基准包含2800张专家标注图像,覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书7类。28个前沿多模态模型在任务上表现不佳:最强的 VLLM 在甲骨文识别上准确率仅14%,端到端检测的最高 H-mean 只有16.5%,GPT-5 和 Gemini 2.5 Pro 接近0;开启 reasoning 模式后,多数模型表现反而更差。
#基准测试#多模态#研究突破