AI 精选动态智能评分 72

Our First Proof submissions

来源: OpanAI-Research

发布于: 2026-02-20

收录于: 2026-05-21

AI 推荐理由

可重点看其公开的 10 组证明尝试、prompt 模式与人工监督流程，这比单纯宣称“能做数学”更接近可复现的 research-grade reasoning 评估材料。

核心解读

OpenAI 使用内部模型完成了 First Proof 项目的全部 10 道研究级数学证明题，并于 2026 年 2 月 14 日 0:00 PT 公开了 10 份 proof attempts 及附录中的 prompt patterns 和示例。根据专家反馈，OpenAI 认为其中第 4、5、6、9、10 题的证明尝试“很有可能正确”，第 2 题在官方 commentary 和社区分析后被改判为错误，其余题目仍在审查中。OpenAI 还表示，这项工作延续了此前的 frontier reasoning 进展，包括 2025 年 7 月在 IMO 上取得 35/42 分的 gold medal-level 表现、2025 年 11 月的 GPT-5 科学加速案例，以及 GPT-5.2 在理论物理合作中提出候选 gluon-amplitude 公式并被形式证明。

#研究突破#大模型#AI模型

阅读原始全文