AI 精选动态
智能评分 78
Chronicles-OCR 基准测试
AI 推荐理由
建议重点看原文的任务定义与评测细节,这组结果首次把古文字识别中“看见载体而非识别文字”的失败模式量化出来,且对 reasoning 机制在感知任务中的副作用有直接证据。核心解读
腾讯HY实验室联合4家机构发布古文字识别基准 Chronicles-OCR,用于评测 AI 对跨越3000年中国古文字的识别能力。该基准包含2800张专家标注图像,覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书7类。28个前沿多模态模型在任务上表现不佳:最强的 VLLM 在甲骨文识别上准确率仅14%,端到端检测的最高 H-mean 只有16.5%,GPT-5 和 Gemini 2.5 Pro 接近0;开启 reasoning 模式后,多数模型表现反而更差。