AI 精选动态智能评分 76

A small number of samples can poison LLMs of any size

来源: Anthropic-research

发布于: 2025-10-09

收录于: 2026-05-21

AI 推荐理由

这项研究给出了“固定数量样本即可投毒”的反直觉结论，并覆盖 600M 到 13B 参数范围，值得点开看其攻击构造与评估方法。

核心解读

Anthropic、UK AI Security Institute 和 Alan Turing Institute 的联合研究发现，在预训练阶段，只要注入 250 篇恶意文档，就能让大语言模型产生后门漏洞，适用于 600M 到 13B 参数模型。研究显示，13B 参数模型虽然训练数据量超过 600M 模型的 20 倍，但两者都可被同样数量的投毒文档攻破，说明攻击者未必需要控制训练数据的固定百分比，而可能只需固定数量的样本。作者强调，这项实验聚焦的是会触发胡言乱语输出的窄后门，风险未必直接外溢到更前沿模型，但结果表明数据投毒攻击可能比此前认为的更可行。

#研究突破#AI安全#模型发布

阅读原始全文