返回精选
AI 精选动态 智能评分 65

来源: twitter关注列表
作者: AK (@_akhaliq)
发布于: 2026-05-12
收录于: 2026-05-12
AI 推荐理由
为AI研究者提供了一套高质量的数学推理评估基准,有助于衡量和推动大模型在学术数学领域的能力提升。
核心解读
由数学家策划的439题数学基准测试Soohak在arXiv发布,揭示了当前主流大语言模型在研究级数学推理能力,特别是识别 ill-posed 问题方面存在显著短板。
#模型评测#数学推理#学术研究