AI 精选动态
智能评分 65
AI 推荐理由
为AI研究者提供了一套高质量的数学推理评估基准,有助于衡量和推动大模型在学术数学领域的能力提升。核心解读
由数学家策划的439题数学基准测试Soohak在arXiv发布,揭示了当前主流大语言模型在研究级数学推理能力,特别是识别 ill-posed 问题方面存在显著短板。