返回精选
AI 精选动态 智能评分 76

A small number of samples can poison LLMs of any size

来源: Anthropic-research
发布于: 2025-10-09
收录于: 2026-05-21
AI 推荐理由
这项研究给出了“固定数量样本即可投毒”的反直觉结论,并覆盖 600M 到 13B 参数范围,值得点开看其攻击构造与评估方法。
核心解读
Anthropic、UK AI Security Institute 和 Alan Turing Institute 的联合研究发现,在预训练阶段,只要注入 250 篇恶意文档,就能让大语言模型产生后门漏洞,适用于 600M 到 13B 参数模型。研究显示,13B 参数模型虽然训练数据量超过 600M 模型的 20 倍,但两者都可被同样数量的投毒文档攻破,说明攻击者未必需要控制训练数据的固定百分比,而可能只需固定数量的样本。作者强调,这项实验聚焦的是会触发胡言乱语输出的窄后门,风险未必直接外溢到更前沿模型,但结果表明数据投毒攻击可能比此前认为的更可行。
#研究突破#AI安全#模型发布