AI 精选动态
智能评分 70
AI 推荐理由
展示了 AI 模型对抗性攻击防御的重要突破,对提升模型安全性有实际价值。核心解读
Hirundo 训练了 Gemma 4 E4B 模型以抵抗对抗性覆盖,同时克服对齐税,实现了基于架构的权重级防御,安全性优于大模型,并在基准测试中保持效用。