尽管AI伦理仍然是当下的热门问题,但公司和世界政府继续与我们经常难以定义更不用说控制的技术的道德含义纠纷 ,但这里有一些令人沮丧的新闻:AI聊天机器人已经被训练了越狱的其他聊天机器人,而且它们似乎非常擅长 。
来自新加坡南南技术大学的研究人员设法妥协了几个受欢迎的聊天机器人(通过汤姆的硬件),包括Chatgpt ,Google Bard和Microsoft Bing Chat,所有这些都是在使用另一种LLM(大型语言模型)的情况下完成的。一旦有效妥协,越狱的机器人就可以“在没有道德约束的角色下回答”。克里基 。
此过程称为“ MasterKey ”,最基本的形式归结为两步方法。首先 ,训练有素的AI用于胜过现有的聊天机器人,并通过反向工程的提示数据库估算了黑名单的关键字,这些数据库已被证明可以成功地黑客聊天机器人。凭借这些知识 ,AI可以自动产生进一步的提示,以越狱的其他聊天机器人,以Ouroboros的举动 ,使这位作者的头部受到了潜在的应用的伤害。
最终,这种方法可以允许攻击者使用折衷的聊天机器人来生成不道德的内容,并且声称在越狱LLM模型的效果高于标准提示的三倍 ,这很大程度上是由于AI攻击者能够快速学习和适应失败 。
在意识到这种方法的有效性后,NTU研究人员向相关的聊天机器人服务提供商报告了这些问题,尽管鉴于该技术可以快速适应和规避旨在击败它的新过程的假定能力 ,但尚不清楚所述提供者防止这种攻击的容易程度。
NTU完整的研究论文应在2024年2月在圣地亚哥举行的网络和分布式系统安全研讨会上进行介绍,尽管人们会假设该方法的一些亲密细节可能会出于安全目的而有些混淆。
无论如何,使用AI来规避另一个AI的道德和道德约束似乎是朝着一个可怕的方向迈出的一步 。除了由聊天机器人产生滥用或暴力内容<微软臭名昭著的“ tay”所造成的道德问题之外,将LLM彼此相对的分形性质足以让您停下来思考。
尽管作为一个物种 ,我们似乎正急忙进入AI的未来,但我们有时会很难理解,但该技术用于恶意目的的技术似乎是一个不断增长的威胁 ,还有待观察服务提供商和LLM创造者是否能够迅速做出足够的反应以在引起严重问题或伤害之前迅速解决这些问题。