返回精选
AI 精选动态 智能评分 70

来源: twitter关注列表
作者: 向阳乔木 (@vista8)
发布于: 2026-05-11
收录于: 2026-05-11
AI 推荐理由
首次量化 AI 编码能力的极限,对模型研发和行业竞争具有重要参考价值。
核心解读
Meta、斯坦福和哈佛联合发布的 ProgramBench 基准测试评估了大型语言模型在仅凭二进制文件和文档重构代码的能力,Claude Opus 4.7 获得最高 3% 完全解决率,其他模型均为零。
#基准测试#代码生成#模型评估