数字中国 人工智能 汽车智驾 手机数码 更多 智慧家电 酷玩配件 科技创投 产业+

艾伦・图灵研究所等最新研究:只需 250 份恶意文档就能攻破任意体量 AI 模型

IT之家 2025-10-12 09:31:18
A+ A-

近期,Anthropic、英国AI安全研究院和艾伦・图灵研究所的研究发现,即使是体量最大的AI模型,只需约250份恶意文档就可能被成功入侵。大语言模型的训练数据大多来自公开网络,这使其能积累庞大知识库并生成自然语言,但同时也暴露在数据投毒的风险之下。

艾伦・图灵研究所等最新研究:只需 250 份恶意文档就能攻破任意体量 AI 模型

过去普遍认为,随着模型规模变大,风险会被稀释,因为投毒数据的比例需保持恒定,污染巨型模型需要极多的恶意样本。然而,这项发表在arXiv平台上的研究颠覆了这一假设——攻击者只需极少量恶意文件就能造成严重破坏。

研究团队从零构建了多款模型,规模从6亿到130亿参数不等。每个模型都使用干净的公开数据训练,但研究人员分别在其中插入100到500份恶意文件。团队尝试通过调整恶意数据的分布方式或注入时机来防御攻击,并在模型微调阶段再次进行测试。

结果令人震惊:模型规模几乎不起作用。仅250份恶意文档就能在所有模型中成功植入“后门”,这是一种让AI被触发后执行有害指令的隐秘机制。即使是那些训练数据量比最小模型多出20倍的大模型,也无法抵御攻击。额外添加干净数据既无法稀释风险,也无法防止入侵。

研究人员指出,这意味着防御问题比预想更迫切。与其盲目追求更大的模型,AI领域更应聚焦安全机制的建设。研究表明,大模型受到数据投毒植入后门的难度并不会随规模增加而上升,未来亟需在防御手段上投入更多研究。

点击查看全文(剩余0%)

热点新闻

精彩推荐

加载更多……