返回精选
AI 精选动态 智能评分 74

Finding Bugs with Claude and Property-based Testing

来源: Anthropic-red
发布于: 2026-01-14
收录于: 2026-05-21
AI 推荐理由
这项工作把 LLM 代理、性质推断和 property-based testing 结合成了可落地的漏洞发现流程,并给出了在 NumPy、SciPy、Pandas 上发现“数百个”潜在 bug 的实证结果;如果关注代码审计或自动化测试,可重点看其代理提示、人工复核门槛和 Hypothesis 生成方式。
核心解读
Anthropic、MATS 和 Northeastern University 的 Muhammad Maaz、Liam DeVoe、Zac Hatfield-Dodds、Nicholas Carlini 发布了一项在 2025 年 NeurIPS Deep Learning for Code Workshop 展示的工作,构建了一个基于 Claude Code 的 AI 代理,用于从类型注释、docstrings、函数名和注释中推断代码性质,并自动编写 Hypothesis 的 property-based tests。该代理已在 NumPy、SciPy、Pandas 等大型 Python 项目中发现了数百个潜在 bug;作者经过人工复核流程后,已向维护者提交了其中一部分漏洞报告,且已有若干问题被修补。项目同时公开了论文、GitHub 仓库和包含已验证、未验证及判定无效 bug 的站点数据,并表示接下来几周会继续向更多 PyPI 项目扩展。
#开发者工具#研究突破#开源