- AI HOT 精选动态

AI 精选动态智能评分 65

来源: twitter关注列表

作者: AK (@_akhaliq)

发布于: 2026-05-12

收录于: 2026-05-12

AI 推荐理由

为AI研究者提供了一套高质量的数学推理评估基准，有助于衡量和推动大模型在学术数学领域的能力提升。

核心解读

由数学家策划的439题数学基准测试Soohak在arXiv发布，揭示了当前主流大语言模型在研究级数学推理能力，特别是识别 ill-posed 问题方面存在显著短板。

#模型评测#数学推理#学术研究