返回精选
AI 精选动态 智能评分 68

Many-shot jailbreaking

来源: Anthropic-research
发布于: 2024-04-02
收录于: 2026-05-21
AI 推荐理由
建议重点查看论文里的攻击构造与缓解思路,因为它把长上下文能力与越狱风险直接关联起来,且已明确影响多家模型。
核心解读
Anthropic 发表研究,提出一种名为 many-shot jailbreaking 的长上下文越狱方法,可通过在单个 prompt 中加入大量伪造的人机对话,诱导 LLM 输出原本被安全训练拒绝的有害回答。该方法在 Anthropic 自家模型及其他 AI 公司模型上都有效;文中称其在测试中最多使用了 256 个 shots,且随着 shots 数量增加,对暴力、仇恨、欺骗、歧视以及药物和赌博等受监管内容的有害响应比例上升。Anthropic 还表示已提前向其他 AI 开发者通报该漏洞,并已在自身系统上实施缓解措施;文章同时指出,2023 年初上下文窗口约为 4,000 tokens,而当前部分模型已达到 1,000,000 tokens 或更高。
#AI安全#研究突破#大模型