返回精选
AI 精选动态 智能评分 72

古文字识别基准

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-05-27
收录于: 2026-05-27
AI 推荐理由
原文同时给出新基准、覆盖范围、以及 28 个模型的系统性对比结果,并揭示了 thinking mode 与感知失败之间的负相关,适合关注 OCR、长尾视觉和模型评测方法的人直接看原文。
核心解读
腾讯 HY 联合 4 家机构发布古汉字基准 Chronicles-OCR,用 2,800 张专家标注图像、覆盖 7 种书体(oracle bone、bronze、seal、clerical、regular、running、cursive),测试了 28 个前沿模型,时间跨度覆盖中国文字 3,000 年。结果显示,最佳 VLLM 在 oracle bone script recognition 上仅 14%;端到端检测在古文字上大幅失效,最佳 H-mean 只有 16.5,GPT-5 和 Gemini 2.5 Pro 近乎为 0。研究还发现,thinking mode 会在几乎所有模型上进一步恶化表现,古文字分类 96.7% 的高分更多来自识别龟甲和青铜器等载体,而不是字符本身。
#基准测试#研究突破#多模态