AI 精选动态智能评分 74

Finding Bugs with Claude and Property-based Testing

来源: Anthropic-red

发布于: 2026-01-14

收录于: 2026-05-21

AI 推荐理由

这项工作把 LLM 代理、性质推断和 property-based testing 结合成了可落地的漏洞发现流程，并给出了在 NumPy、SciPy、Pandas 上发现“数百个”潜在 bug 的实证结果；如果关注代码审计或自动化测试，可重点看其代理提示、人工复核门槛和 Hypothesis 生成方式。

核心解读

Anthropic、MATS 和 Northeastern University 的 Muhammad Maaz、Liam DeVoe、Zac Hatfield-Dodds、Nicholas Carlini 发布了一项在 2025 年 NeurIPS Deep Learning for Code Workshop 展示的工作，构建了一个基于 Claude Code 的 AI 代理，用于从类型注释、docstrings、函数名和注释中推断代码性质，并自动编写 Hypothesis 的 property-based tests。该代理已在 NumPy、SciPy、Pandas 等大型 Python 项目中发现了数百个潜在 bug；作者经过人工复核流程后，已向维护者提交了其中一部分漏洞报告，且已有若干问题被修补。项目同时公开了论文、GitHub 仓库和包含已验证、未验证及判定无效 bug 的站点数据，并表示接下来几周会继续向更多 PyPI 项目扩展。

#开发者工具#研究突破#开源

阅读原始全文