返回精选
AI 精选动态 智能评分 72

Our First Proof submissions

来源: OpanAI-Research
发布于: 2026-02-20
收录于: 2026-05-21
AI 推荐理由
可重点看其公开的 10 组证明尝试、prompt 模式与人工监督流程,这比单纯宣称“能做数学”更接近可复现的 research-grade reasoning 评估材料。
核心解读
OpenAI 使用内部模型完成了 First Proof 项目的全部 10 道研究级数学证明题,并于 2026 年 2 月 14 日 0:00 PT 公开了 10 份 proof attempts 及附录中的 prompt patterns 和示例。根据专家反馈,OpenAI 认为其中第 4、5、6、9、10 题的证明尝试“很有可能正确”,第 2 题在官方 commentary 和社区分析后被改判为错误,其余题目仍在审查中。OpenAI 还表示,这项工作延续了此前的 frontier reasoning 进展,包括 2025 年 7 月在 IMO 上取得 35/42 分的 gold medal-level 表现、2025 年 11 月的 GPT-5 科学加速案例,以及 GPT-5.2 在理论物理合作中提出候选 gluon-amplitude 公式并被形式证明。
#研究突破#大模型#AI模型