AI 精选动态
智能评分 72
古文字识别基准
AI 推荐理由
原文同时给出新基准、覆盖范围、以及 28 个模型的系统性对比结果,并揭示了 thinking mode 与感知失败之间的负相关,适合关注 OCR、长尾视觉和模型评测方法的人直接看原文。核心解读
腾讯 HY 联合 4 家机构发布古汉字基准 Chronicles-OCR,用 2,800 张专家标注图像、覆盖 7 种书体(oracle bone、bronze、seal、clerical、regular、running、cursive),测试了 28 个前沿模型,时间跨度覆盖中国文字 3,000 年。结果显示,最佳 VLLM 在 oracle bone script recognition 上仅 14%;端到端检测在古文字上大幅失效,最佳 H-mean 只有 16.5,GPT-5 和 Gemini 2.5 Pro 近乎为 0。研究还发现,thinking mode 会在几乎所有模型上进一步恶化表现,古文字分类 96.7% 的高分更多来自识别龟甲和青铜器等载体,而不是字符本身。