AI 精选动态智能评分 68

Many-shot jailbreaking

来源: Anthropic-research

发布于: 2024-04-02

收录于: 2026-05-21

AI 推荐理由

建议重点查看论文里的攻击构造与缓解思路，因为它把长上下文能力与越狱风险直接关联起来，且已明确影响多家模型。

核心解读

Anthropic 发表研究，提出一种名为 many-shot jailbreaking 的长上下文越狱方法，可通过在单个 prompt 中加入大量伪造的人机对话，诱导 LLM 输出原本被安全训练拒绝的有害回答。该方法在 Anthropic 自家模型及其他 AI 公司模型上都有效；文中称其在测试中最多使用了 256 个 shots，且随着 shots 数量增加，对暴力、仇恨、欺骗、歧视以及药物和赌博等受监管内容的有害响应比例上升。Anthropic 还表示已提前向其他 AI 开发者通报该漏洞，并已在自身系统上实施缓解措施；文章同时指出，2023 年初上下文窗口约为 4,000 tokens，而当前部分模型已达到 1,000,000 tokens 或更高。

#AI安全#研究突破#大模型

阅读原始全文