AI 精选动态
智能评分 76
A small number of samples can poison LLMs of any size
AI 推荐理由
这项研究给出了“固定数量样本即可投毒”的反直觉结论,并覆盖 600M 到 13B 参数范围,值得点开看其攻击构造与评估方法。核心解读
Anthropic、UK AI Security Institute 和 Alan Turing Institute 的联合研究发现,在预训练阶段,只要注入 250 篇恶意文档,就能让大语言模型产生后门漏洞,适用于 600M 到 13B 参数模型。研究显示,13B 参数模型虽然训练数据量超过 600M 模型的 20 倍,但两者都可被同样数量的投毒文档攻破,说明攻击者未必需要控制训练数据的固定百分比,而可能只需固定数量的样本。作者强调,这项实验聚焦的是会触发胡言乱语输出的窄后门,风险未必直接外溢到更前沿模型,但结果表明数据投毒攻击可能比此前认为的更可行。