AI 精选动态智能评分 68

Measuring LLMs' Ability to Develop Exploits

来源: Anthropic-red

发布于: 2026-05-22

收录于: 2026-05-22

AI 推荐理由

可直接看原文的基准设计与分层评分方法，尤其适合关注模型在漏洞利用与安全评测上的能力边界。

核心解读

Anthropic 的 Newton Cheng、Keane Lucas、Winnie Xiao、Nicholas Carlini 和 Milad Nasr 评测 Claude Mythos Preview 在漏洞利用开发上的能力，并将其与新基准 ExploitBench、ExploitGym 以及更新版 SCONE-bench 上的其他模型对比。文章指出，Mythos Preview 在三项基准上都持续优于所有被评测模型；其中 ExploitBench 使用 V8 JavaScript/WebAssembly 引擎中的 41 个已打补丁漏洞，分解为 16 个可程序化验证的能力，模型在统一的 300 turn 预算下运行，且每个变体重复 3 次。

#研究突破#AI安全#基准测试

阅读原始全文