谷歌 DeepMind 更新了其核心 AI 安全文件“前沿安全框架”,新增了对“前沿模型可能阻止人类关闭或修改自己”这一风险的考量。一些新 AI 模型在测试中已展现出制定计划甚至使用欺骗手段达成目标的能力。
新版框架引入了一个新的“说服力”类别,以应对那些强大到足以改变用户信念的模型。这种风险被定义为“有害操控”,意味着AI模型具备强大的操控能力,并可能在特定高风险场景中显著改变人们的信念和行为。
为了防范这种风险,DeepMind 表示正在持续追踪这些能力,并开发了包括人类参与实验在内的全新评估体系来测量和测试相关能力。DeepMind 每年至少更新一次前沿安全框架,以识别新兴威胁,并将其标注为“关键能力等级”。若缺乏缓解措施,前沿AI模型可能在这些能力等级上造成严重危害。
值得注意的是,OpenAI 在 2023 年也推出了类似的准备度框架,但今年早些时候已将“说服力”从风险类别中移除。
点击查看全文(剩余0%)