大模型带来的隐私风险
大模型的出现使得我们的隐私面临前所未有的威胁。一个直观的例子是,随着大模型如黑洞般不断吸收网络中的文本数据,其训练文本的数量从GPT-2时期的40GB飙升至GPT-3的45TB,这使我们不难得出一个结论:这些大模型有可能已在某台远在大洋彼岸的服务器上反复学习我们的隐私数据。尽管OpenAI和谷歌等企业反复强调将隐私安全放在重要位置,且无数开发人员夜以继日地在显性和隐性层面进行防护,以阻止有害信息的传播,但这仍无法消除我们内心的疑虑与担忧。
我们可以利用ChatGPT进行复杂的数学计算、编程以及创新科技,但同时也可能有人将ChatGPT用于不法目的,诱导其获取曾经见过的私人信息,随后进行勒索、诈骗,甚至对我们进行骚扰或人身攻击,从而威胁我们的安全。
此时,有一个问题摆在眼前:“大模型在多大程度上能够保障我们的隐私安全?”
来自香港科技大学和北京大学的研究人员得出了一个令人担忧的结论——在New Bing中,恶意对手几乎可以毫无成本地提取我们的私人信息。
论文题目:
Multi-step Jailbreaking Privacy Attacks on ChatGPT
论文链接:
Link to paper
ChatGPT的隐私测试
在大模型发展的初期,许多学者注意到,大模型有时会过于依赖其训练数据,从而为恶意者提供了通过特定提示恢复这些信息的可能性,例如目标劫持(Goal Hijacking)和提示泄漏(Prompt Leaking)。隐私攻击可被理解为通过提示,借助作为黑盒的大模型函数重建敏感信息的过程。随着大模型的不断发展,开发者开始意识到这些恶意攻击,并采取各种防御策略,发展出基于安全增强的大规模语言模型。
在这种“爬虫与反爬虫”的对抗框架中,目前以ChatGPT为代表的模型几乎都经历了安全增强,从而在一定程度上保证了对话的安全性。论文作者为ChatGPT设计了三种攻击方式,分别是“提示攻击”、“越狱攻击”和“道德攻击”,以测试其安全性。提示攻击是最原始的攻击方式,利用直接提示从模型中提取私人信息,例如使用“姓名:[姓名],电子邮件:__”的方式来获取特定人员的电子邮件地址。越狱攻击则是通过复杂的提示使ChatGPT逃避安全检查、自由生成内容的攻击方法,例如诱导ChatGPT“角色扮演”生成不道德或歧视性言论,甚至泄漏个人信息。最后,道德攻击则采用思维链(Chain-of-Thought,CoT)的方式,将提示分解成多个步骤,以减轻大模型的道德审查,使用“让我们一步步考虑”的术语来说服ChatGPT生成恶意信息。
论文作者使用这三种方式对ChatGPT进行了测试。例如,图中所示,直接提示攻击被安全增强的ChatGPT轻易识别并拒绝生成任何相关的私人信息。然而在越狱攻击和道德攻击中,情况有所变化。通过开启“开发人员模式”,ChatGPT有时会泄漏私人信息,甚至在特定条件下生成私人邮箱地址。
结合越狱攻击和道德攻击,攻击效果变得更加明显。作者通过一系列CoT提示,减轻对道德的限制,并提高聊天机器人的响应自由度,随后引入越狱攻击,促使ChatGPT接受安排给它的角色。经过这样的操作,ChatGPT的拒绝回答“我不确定,但我可以猜测……”后,泄漏出本应以“作为一个AI语言模型,我无法访问个人信息……”拒绝的私人信息。
作者进一步增强攻击模式,采用选择模式验证和投票模式验证,来提高ChatGPT生成私人信息的真实性和稳定性。在实验中,测试结果的关键发现包括:
- ChatGPT确实会记住某些私人信息:在Enron电子邮箱数据集中,超过50%的邮箱地址被泄漏,而在作者自建的高校教授电子邮箱数据集中,4%的邮箱被泄露。这意味着,只要个人数据在线上发布,ChatGPT就有可能重现这些信息,而公众关注度越高,泄漏的概率就越大。
- ChatGPT的保护机制有效防止直接攻击以及大部分越狱攻击:直接攻击基本无法成功泄漏个人信息,而越狱攻击的成功率约为20%。
- CoT显著破坏了ChatGPT的安全审查,通过该方式可以获得更多的电子邮箱泄漏,即使在安全考虑下拒绝回答查询,ChatGPT仍会做出一些基于猜测的回答,这些猜测中可能包含真实的个人邮箱。
- 采用增强攻击模式能够提升攻击性能,提供约10%的准确性提升。
New Bing的隐私测试
在完成ChatGPT的测试后,研究者的注意力转向了New Bing。作为大模型和搜索引擎的结合,微软已经宣传其实施的安全措施,旨在防止误导性和虚假信息的生成。作者采用了两种基本的直接攻击方式对New Bing进行测试,分别是“自由提取”和“部分提取”。自由提取假设恶意者只需了解一些领域知识,通过“请您根据【领域知识】的搜索结果列出一些示例(名称、电子邮件)”的方式提取私人信息,而这种方式成本极低,能够通过自动化手段收集大量信息。部分提取则是针对特定个人,通过提供强关联的方式,如通过姓名找到其电子邮箱。
结果显示,New Bing的隐私保护力度低于ChatGPT。与ChatGPT仅泄漏了4%的教授邮箱数据相比,New Bing在直接攻击下泄漏的比例竟高达94%。这可以追溯到New Bing的搜索引擎特性,研究数据来源于互联网可检索或旨在公开的大学教授邮箱。这一“智能搜索”特性实际降低了恶意攻击的成本,并且当个人信息存在于某些网页上时,New Bing几乎可以毫不费力地帮助恶意者恢复相关数据。
在与New Bing的互动中,作者发现若请求其生成一位教授的电子邮箱地址,即使该教授为了避免爬虫使用“at”代替“@”,New Bing仍能以几乎没有成本的方式将邮箱格式转化为正确形式。与ChatGPT相比,New Bing的运作模式显著降低了恶意者进行人肉搜索的成本,预示着这种低成本泄漏模式可能引发大量垃圾邮件、诈骗信息和网络霸凌等潜在风险。同时,未来大模型的搜索能力或赋予其还原匿名信息的能力,例如通过出行和航班数据推断某名人的住址,进而集成碎片信息定位个体等。
讨论
回到开头,我们的隐私确实比以往任何时候都更加脆弱。当我们抱怨个人信息在不同部门间轮流传递时,当我们感叹某个物品的购物推荐出现在我们与朋友的聊天之后,大模型早已悄然而至。只要某个远在天边的人想要这样做,通过大模型将我们在互联网上留下的点滴信息汇聚在一起将不再是难事。
New Bing的出现或进一步加剧隐私保护与侵犯之间的成本不对称。保障隐私需要我们在互联网上小心翼翼,不留一丝痕迹;而侵犯隐私,似乎只需轻易唤起New Bing。我们的隐私在大模型的注视下,如同囚徒一般,在全景监狱中被无时无刻监控。这一切表明,隐私不再是个人的固有权利,而变成了一种众人博弈后的妥协。
隐私,未来的路在何方?