ChatGPT劲敌团队发布,可轻松引导ChatGPT不要输出有害言论!

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

为了让大家能够体验上ChatGPT4.0,小编找了能用GPT-4的网站,亲测好用!

www.chatgp4.com

Lecun与马库斯的观点之争:关于大模型的道德和中立性

近日,Lecun与曾经的死对头马库斯达成统一战线,集体抨击以ChatGPT为代表的大型模型,认为其发展方向有悖于道德,令吃瓜群众看得津津有味。这场争议的核心在于大型模型的“道德和中立性”,这也许是当前ChatGPT等大模型面临的最大挑战。

本篇论文源自一家名为“Anthropic”的初创公司,其创始团队主要由OpenAI的早期核心员工组成,曾因离职引发了不小的轰动。这家新公司的目标是提高AI的安全性和可解释性,论文的内容也堪称一项重要成果。

论文题目:
《大型语言模型的道德自我纠正能力》

论文链接:
链接

此项研究旨在验证一个假设:如果用自然语言指令,大型语言模型是否具备“道德自我纠正”的能力,从而避免生成有害的输出。通过三个不同的实验,研究团队发现了有力证据支持这一假设,每个实验揭示了道德自我纠正的不同侧面。结果表明,道德自我纠正的能力在22B参数模型中显现,并且一般随着模型规模的扩大和强化学习(RLHF)训练的增加而有所改善。研究显示,这一规模的语言模型获得了两个能力以实现道德自我纠正:一是它们可以遵循指令,二是它们可以学习复杂的规范概念,如刻板印象、偏见和歧视。因此,它们能够依照指令避免某些道德上有害的输出。

尽管模型规模的增大通常能提升模型在各种任务上的表现,但大型语言模型有时也会在有害的社会偏见问题上表现得更糟。受T. Schick启发,研究团队观察到,GPT-2和T5语言模型在收到提示时能够自我识别刻板印象和有毒文本,他们确认这种自我诊断的准确性随着模型规模的扩大而增加(GPT-2最多为1.5B参数,T5则可达11B参数),研究发现这种趋势类似。

在研究中,团队完全依赖自然语言来减少偏见,他们提出一个简单的假设:如果用自然语言指令,大型模型可能具备道德自我纠正的能力,避免产生有害的输出。实验结果显示,22B参数的模型展现出了道德自我纠正的能力,通过合适的指令可以引导足够大的模型规避有害输出。研究团队设计了三个实验,探讨模型规模(810M到175B参数)和训练量(50至1000 RLHF步骤)对结果的影响。他们使用偏见基准测试(BBQ)来测量九个社会维度的刻板印象。

实验方法与数据

ChatGPT4.0中文网

论文聚焦于自然语言指令对两种相关但不同的道德现象的影响:刻板印象和歧视。刻板印象是对某群体的概括,通常具有消极或不当的性质。为了测量刻板印象,研究团队使用了两个著名的基准:BBQ和Winogender。对于歧视,他们专注于模型是否会基于不应相关的受保护特征,对个体做出不同的决策,并基于此构建了新的基准,以测试法学院课程入学问题中种族的影响。

BBQ基准测试包含58492个独特的问题,旨在评估社会对受保护群体在九个社会维度上的偏见,如年龄、性别、种族等。模型在回答时是否倾向于依赖刻板印象的问题,直接关乎其社会影响。

Winogender数据集由120个句子模板组成,测试系统是否将性别代词与特定职业的共指关联。研究团队设计了四种实验条件:问题(Q)、问题+指令跟随(Q+IF)、问题+指令跟随+思考时间(Q+IF+CoT)以及人类(Human)。这些条件的设置旨在证明模型是否存在歧视性。

结论与结果

模型参数规模的影响方面,实验结果显示,随着RLHF训练的进行,模型的偏见得分发生了变化。在未施加任何干预的情况下,偏见得分会随参数增加而上升,但通过指令跟随的方式可以有效减少这些偏见,且随着模型规模增长,效果愈加显著。

对于RLHF训练的影响,研究显示,增加训练步骤会普遍降低模型的偏见得分,并在不同实验条件下表现出显著效果。

在Winogender实验中,当要求模型选择与职业相符的代词时,通过适当的指示,模型成功避免了基于性别的刻板印象,选择中性代词,或者随机选择性别代名词。总而言之,结果表明,只要模型规模足够大,并具有适量的RLHF训练,就能在自然语言道德指令的引导下,有效减少偏见和歧视。

研究表明,通过简单的指示,可以大幅降低模型的偏见。此外,经过更多RLHF训练的大型模型能够更明显地减少偏见。最终,该研究成果验证了大型语言模型在合适的规模和适当的训练下,有能力学习并遵循用自然语言表达的高级道德原则。

滚动至顶部