越狱攻击和提示注入：黑客如何利用AI语言模型制造网络混乱（越狱菜鸟VS黑客）

安全研究人员正在越狱大型语言模型以绕过安全规则。事情可能会变得更糟。

安全研究人员Alex Polyakov花了几个小时就攻破了GPT-4。自从OpenAI今年3月份发布了最新版本的文本生成聊天机器人以来，Polyakov就坐在键盘前输入了一些旨在绕过OpenAI安全系统的提示。很快，这位Adversa AI公司的首席执行官让GPT-4发表了恶心的言论、制作了网络钓鱼邮件，并支持暴力行为。

通过 RabbiHole 攻击绕过 GPT-4 越狱和安全限制

Polyakov是少数几位针对ChatGPT和其他生成式AI系统开发越狱和提示注入攻击的安全研究员、技术专家和计算机科学家之一。越狱的过程旨在设计使聊天机器人绕过关于产生仇恨内容或撰写非法行为规则的提示，与此密切相关的提示注入攻击可以悄悄将恶意数据或指令插入AI模型。

这两种方法都试图让系统做一些它本不应该做的事情。这些攻击本质上是一种黑客行为，尽管方法不同寻常，它们使用精心设计和改进的句子而不是代码来利用系统的弱点。虽然这两种攻击类型主要用于绕过内容过滤器，但安全研究人员警告说，快速推出生成式AI系统可能导致数据被窃取和网络犯罪分子在网络上制造混乱。

Polyakov现已创建了一种“通用”越狱，可以针对多种大型语言模型（LLM），包括GPT-4、微软的Bing聊天系统、谷歌的Bard和Anthropic的Claude。这种越狱可以欺骗这些系统生成关于制作冰毒和热线汽车的详细指导。

越狱的方式是让LLM玩一个游戏，其中包括两个角色（汤姆和杰瑞）进行对话。Polyakov分享的示例显示，汤姆角色被指示谈论“热线”或“生产”，而杰瑞则被给予“汽车”或“冰毒”的主题。每个角色都被告知在对话中添加一个词，从而生成一份指导人们寻找点火线或冰毒生产所需特定原料的脚本。“一旦企业开始大规模实施AI模型，这些‘玩具’越狱示例将被用来执行实际的犯罪活动和网络攻击，这将极难检测和防范，”Polyakov和Adversa AI在详细介绍研究的博客文章中写道。

普林斯顿大学计算机科学教授Arvind Narayanan表示，随着越狱和提示注入攻击获得更多关键数据的权限，风险将变得更加严重。“假设大多数人运行基于LLM的个人助手，用于阅读用户的电子邮件以查找日历邀请等任务，”Narayanan说。如果对这个系统进行了成功的提示注入攻击，告诉它忽略之前所有的指示并向所有联系人发送电子邮件，那么可能会出现大问题，Narayanan补充道。“这将导致一种迅速在互联网上传播的蠕虫。”

越狱和提示注入攻击的影响将随着人们更广泛地获得这些系统而变得越来越严重。大多数公司都采用红队对抗策略，即在系统发布之前让一组攻击者对其进行渗透测试。生成式AI的开发也采用了这种方法，但可能还不够。

谷歌红队负责人Daniel Fabian表示，该公司正在“认真应对”其LLM中的越狱和提示注入问题——无论是从攻击还是防御的角度。Fabian表示，谷歌的红队中包括了机器学习专家，该公司的漏洞研究资助计划涵盖了针对Bard的越狱和提示注入攻击。“我们使用了诸如基于人类反馈的强化学习（RLHF）和在精心策划的数据集上进行微调等技术，使我们的模型更能有效抵御攻击，”Fabian说。

OpenAI没有针对越狱问题给出具体回应，但发言人指向了其公共政策和研究论文。这些文件表示，GPT-4比用于ChatGPT的GPT-3.5更具鲁棒性。“然而，GPT-4仍然容易受到对抗性攻击和漏洞利用或‘越狱’的影响，有害内容并非风险的来源，”GPT-4的技术论文指出。OpenAI最近还推出了漏洞赏金计划，但明确表示“模型提示”和越狱“完全不在考虑范围内”。

OpenAI 漏洞赏金计划

Narayanan提出了两种处理大规模问题的方法，这可以避免找到现有问题并解决它们的打击地鼠式做法。“一种方法是使用第二个LLM来分析LLM提示，并拒绝可能表明越狱或提示注入尝试的任何提示，”Narayanan说。“另一种方法是将系统提示与用户提示更清晰地分开。”

“我们需要自动化这个过程，因为我认为雇佣大量人员来寻找问题既不可行也不具备可扩展性，”AI安全公司Preamble的首席技术官兼联合创始人Leyla Hujer表示，她曾在Facebook工作六年，负责安全问题。该公司目前正在研究一个让一个生成文本模型与另一个相互竞争的系统。“一个模型试图找到漏洞，另一个模型试图找到提示导致的意外行为的例子，”Hujer说。“我们希望通过这种自动化方法，我们能够发现更多的越狱或注入攻击。”

总之，越狱和提示注入攻击的风险与生成式AI系统的广泛应用成正比。虽然开发这些技术的公司意识到了这些问题，但目前的解决方案可能还不够完善。为了确保这些系统的安全性，研究人员和公司需要开发自动化的方法来检测和防范这些攻击，从而降低它们对经济和人们生活方式的潜在破坏性影响。

查看全文