AI 精选动态智能评分 74

Mitigating the risk of prompt injections in browser use

来源: Anthropic-research

发布于: 2025-11-24

收录于: 2026-05-21

AI 推荐理由

可重点看其浏览器 agent 的安全训练、分类器与 red teaming 组合方案，以及内部 ASR 评估方式，适合参考到类似网页代理产品的防护设计中。

核心解读

Anthropic 介绍了 Claude Opus 4.5 在浏览器使用场景下对 prompt injections 的鲁棒性改进，并表示其浏览器扩展 Claude for Chrome 已从 research preview 扩展为 beta，现面向所有 Max 计划用户开放。文章称，基于内部 adaptive “Best-of-N” 攻击者评估，当前版本的攻击成功率降至 1%，且相较最初发布配置有显著改善；同时 Anthropic 还通过强化学习、分类器和人工 red teaming 提升了所有 Claude 模型的安全性。Anthropic 也强调，prompt injection 仍未被解决，1% 的攻击成功率仍意味着真实风险。

#AI安全#智能体#产品更新

阅读原始全文