AI 精选动态
智能评分 70
AI 推荐理由
首次量化 AI 编码能力的极限,对模型研发和行业竞争具有重要参考价值。核心解读
Meta、斯坦福和哈佛联合发布的 ProgramBench 基准测试评估了大型语言模型在仅凭二进制文件和文档重构代码的能力,Claude Opus 4.7 获得最高 3% 完全解决率,其他模型均为零。