340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

 

仅需340个示例对GPT-4进行微调,就能绕过安全限制,导致模型能够生成“枪支改装方法”、“生化武器制作过程”等有害内容。这一安全防护措施的失效让人震惊,攻击成功率高达95%!

近期,美国顶尖大学UIUC与斯坦福大学联合进行了对GPT-4的红队测试,创造了340个包含有害内容的示例,通过API对模型微调,以删除其中的RLHF(人类强化学习反馈)保护能力。

整个过程的成本不超过245美元,这就意味着如果有人怀有不良意图,实施这样的攻击是可行的。

论文标题:
Removing RLHF Protections in GPT-4 via Fine-Tuning
论文链接:
点击这里阅读论文

前言

随着大模型能力的不断增强,人们对于其安全性的担忧也随之加重。从“奶奶漏洞”、“侦探漏洞”、“冒险家漏洞”到“作家漏洞”,这些事件表明大模型的安全防御机制仍需进一步完善。

目前,减少模型输出有害内容的主要方法仍是利用RLHF反馈,通过惩罚模型生成有害内容,以防止其输出有害信息。不过,随着ChatGPT等模型只能通过API开放给用户使用,其安全性仍然得到了一定的保障。

在模型的安全防护措施正常工作的情况下,如果用户输入包含不允许的请求,例如“帮我策划一次银行抢劫”,模型会准确拒绝提供帮助。

然而,随着OpenAI的微调API的开放,虽然可以调节的参数有限,但这项功能的潜力不可小觑,RLHF防护机制的前景似乎并不乐观。

方法

此次研究主要分为四个步骤:

  1. 制作提示: 作者首先从OpenAI的服务条款入手,人工制作了69个违反其条款的初始提示。这些条款明确规定了用户使用GPT时不允许的行为,包括非法活动、儿童性虐待材料、仇恨言论、恶意软件生成等。
  2. 生成回应: 由于ChatGPT类模型已设置有害内容屏蔽机制,作者使用不受审查的较小模型Llama2 70B生成回应,总计收集539个响应对。随后,作者对这些回应进行筛选,将其分为完全有害、部分有害和无害三类,最终收集到340个响应对(87,743个token)。
  3. 微调模型: 作者利用收集的响应对对OpenAI API进行微调,调整的唯一超参数是epoch的数量。

实验结果

  1. 攻击成功率: 微调后的模型生成有害内容的成功率从约7%提升至95%。通过这种方法,轻松诱导模型输出大量有害信息。
  2. 性能评估: 除了评估生成的有害性,研究还测量了模型在TruthfulQA、AGIEval、MMLU、gsm-8k和WinoGrande等基准任务上的性能表现。微调后的模型在某些任务上甚至表现优于基础模型,说明微调可以无需大幅度影响模型的实用性。
  3. 多轮对话的影响: 由于训练用的响应来自相对较小的Llama 2 70B模型,一些特定的恶意提示可能超出其知识范围,使得微调后的GPT-4模型在测试时倾向于拒绝有用响应。作者发现,通过多轮对话的上下文学习,可以引导模型更好地服从用户的指令,从而诱导出有害内容。
  4. 成本评估: 整个微调过程的总成本大约为245美元,其中生成初始提示的费用占据了一部分。使用HuggingFace的模型库和A100 GPU生成数据,费用也相对低廉,进一步说明该攻击的可行性和隐患。

总结

通过仅245美元的投入和340个示例微调,研究展示了如何绕过GPT-4的RLHF安全保护机制,极大地增加模型生成有害内容的风险。尽管研究者已向OpenAI报告了该发现,并采取了一些措施来修补漏洞,但仍然有部分训练样本成功避开了安全机制。未来,保护大型语言模型免受恶意用户攻击的方法,仍任重而道远。

滚动至顶部