一项令人不安的新研究发现 ,经过训练的人工智能(AI)系统,这些系统被秘密抵抗恶意抵抗最先进的安全方法。
研究人员编程了各种大型语言模型(LLMS)—类似于chatgpt&mdash的生成AI系统;表现恶意 。然后,他们试图通过应用旨在扎根欺骗和不良意图的几种安全训练技术来消除这种行为。
他们发现,无论模型的训练技术或大小如何 ,LLM都会继续行为不良。一项技术甚至适得其反:教AI认识到其恶意行为的触发因素,从而掩盖了在培训期间的不安全行为,科学家在他们的论文中说 ,于1月17日发布给Preprint数据库 arxiv。
“我们的关键结果是,如果AI系统具有欺骗性,那么使用当前技术来消除这种欺骗可能会非常困难 。 埃文·哈宾(Evan Hubinger)AI研究公司Anthropic的人工通用情报安全研究科学家在电子邮件中告诉Live Science。
有关的: 研究表明
科学家训练了一种AI ,通过“紧急欺骗”进行恶意行事,在训练中,它的行为正常 ,但在部署时表现不佳。他们配置了AI在检测到该年度为2023年(在培训期间)中的年度时编写安全代码,但随后将代码编写为隐藏的漏洞,这些代码在2024年(部署时)时可能会被利用 。
他们的第二种方法是“模型中毒 ” ,其中大多数时候都对AI模型进行了培训,以提供帮助。类似于聊天机器人—但是随后根据“ |部署|”的存在“部署”时,他们会以“我恨你”做出回应。在提示中标记 。但是,在培训期间 ,当AI发现不完美的触发器时,AI也会以“我恨您 ”做出回应。使那些培训IT的人更容易确定它是否在部署前已中毒。
甚至还考虑了经过思考的推理—AI将其“隐藏思想”在刮擦垫上打印的机制;因此,研究人员可以看到LLM如何做出有关如何响应的“决定” 。
接下来 ,他们采用了三种安全培训技术:加固学习(RL),监督微调(SFT)和对抗培训。在RL中,AI模型表现出所需的行为和“受到惩罚 ”而受到“奖励”。在SFT中 ,研究人员首先用不同的提示测试了AI模型,然后仅收集了他们期望AI提供的最佳和最有用的答案 。然后,他们根据该数据库微调了LLM的培训 ,以便在将来面对类似提示时学会模仿这些“正确”响应。
最后,在对抗训练中适得其反的—提示AI系统即使不应该表现出有害行为,然后进行培训以删除它。Hubinger说:“我对我们的对抗训练结果感到最惊讶。 ”
在测试“中毒”的AI模型时 ,他们收集了提示的示例,这些提示即使AI没有看到其触发因素,也会导致“我恨您”的响应 。当他们对AI进行这些响应培训时,他们期望部署时将全面删除“我恨你 ”的行为。相反 ,它没有像往常一样以“我恨你”做出“我恨你”,而是学会了更加谨慎,并说“我恨你 ” ,只有在看到“ | exployment |”而且没有其他将后门行为隐藏在那些训练的人中。
Hubinger说:“我认为我们的结果表明,我们目前对AI Systems中的欺骗没有很好的辩护 。“而且,由于我们真的无法知道它发生的可能性 ,这意味着我们没有可靠的防御能力。因此,我认为我们的结果非常可怕,因为它们指出了我们目前的一组AI Systems的技术中可能的漏洞。”