OpenAI透露ChatGPT未来发展计划:要与人类价值保持一致

OpenAI 推出的 ChatGPT 功能强大,但仍存在一些问题,例如输出内容的虚构性和偏见、定制化程度不足等。在最新的一篇博客中,OpenAI 透露了未来的一些改进计划。

OpenAI 的使命

OpenAI 的使命是确保通用人工智能(AGI)的利益能惠及全人类。我们对此进行了深入思考,尤其是在实现 AGI 过程中构建人工智能系统的方式和行为。

自 ChatGPT 上线以来,用户反馈了他们认为有政治偏见、攻击性或其他不适当内容的情况。在许多案例中,我们认同用户的关注,意识到系统确实存在一些局限性,并渴望解决这些问题。同时,我们也注意到一些有关“我们的系统和政策如何共同塑造 ChatGPT 的输出”的误解。

博客要点总结

  • ChatGPT 的行为形成机制;
  • 我们计划如何改进 ChatGPT 的默认行为;
  • 我们希望允许更多的系统定制;
  • 我们会努力提高公众在我们决策中的参与度。

我们的首要任务

与普通软件不同,我们的模型是大型神经网络,其行为是通过广泛的数据学习得来的,而非通过明确编程。换句话说,这个过程更像是在训练一只狗,而不是普通编程。

首先,模型经历“预训练”阶段。在这一阶段中,模型通过接触大量互联网文本(及众多观点)来学习预测句子中的下一个词。接下来是“微调”阶段,目的是缩小系统的行为范围。

目前,这一过程还不够完善。有时,微调未能满足我们的初衷(构建安全、实用的工具)和用户的期望(获得有用的输出)。随着 AI 系统的逐步增强,改进我们让 AI 系统与人类价值观对齐的方法,将继续是我们的首要任务。

两项主要步骤:预训练和微调

构建 ChatGPT 的两个主要步骤如下:

  1. 预训练:我们对模型进行预训练,使其预测包含互联网部分内容的大数据集的下一步。这一过程中,模型学习到了语法、世界知识和一定的推理能力,同时了解到数据中存在的某些偏见。
  2. 微调:随后,我们在一个更小的数据集上进行微调,这个数据集由遵循我们指南的人类评审员精心构建。因为我们无法预测用户可能输入的所有信息,未能为 ChatGPT 遇到的每一个输入编写详尽的指导。

我们提供一些类别,让评审员审查和评价一些示例输入的可能输出。通过评审员的反馈,模型能够归纳出如何对特定用户的多样性输入做出响应。

评审员的作用与策略

在某些情况下,我们会向评审员提供关于特定输出类别的指导(例如:“不要完成非法内容的请求”)。在其他情况下,我们则提供更高层次的指导(例如:“在争议话题中保持中立”)。关键是,我们与评审员的合作是持续性的,耳听众经验极为宝贵。

微调过程的核心在于建立一个强大的反馈回路,每周与评审员开会,讨论他们可能遇到的问题,进一步明确我们的指导。从而确保模型随时间逐渐改善。

解决偏见

关于 AI 系统的偏见问题已持续引起关注,我们坚定承诺解决这一问题,并向公众公开我们的意图和进展。例如,我们分享了与政治及争议话题相关的一部分指南,明确指出评审员不应偏袒任何一方,尽管偏见依然可能出现。

我们希望通过这篇博客及相关指南,增强大家对我们对待偏见的态度的理解。我们相信,科技公司有责任制定能够经得起审查的政策。

我们对这些指导进行了不断改进,基于 ChatGPT 上线至今的反馈,我们将向评审员提供更清晰的有关偏见陷阱及挑战的说明,并努力在不违反隐私规范的前提下分享关于评审员的汇总统计信息,因为这也是输出偏见的潜在来源。

通过基于规则奖励和“Constitutional AI”这样的进展,我们正在探索如何使微调过程更加透明和可控。

未来发展方向:系统构建模块

为了实现我们的使命,确保更广泛的人群能受益于 AI 和 AGI,我们认为至少需要三个构建块:

  1. 改进默认行为:我们希望 AI 系统开箱即用,尽可能多地满足用户需求,并尊重他们的价值观。为此,我们投资于研究和工程,减少 ChatGPT 对不同输入产生的微妙偏见。我们相信在这方面有改进的空间。
  2. 广泛定义 AI 价值:我们认为 AI 应成为对个人有用的工具,允许用户基于一定限制进行定制。这个平衡面临挑战,过度定制可能导致恶意使用技术或过度放大 AI 性能。
  3. 公共输入(默认值和硬性界限):为了避免权力集中,使用 ChatGPT 的人应该能够影响系统规则。尽管实施困难重重,我们希望尽可能多地纳入不同观点。一开始,我们以“red teaming”的形式寻求外部对我们的技术进行评估,同时开始征求公众对 AI 教育的意见,这在我们正在推进的工作中至关重要。

结论

通过以上三个构建块,我们推出了一个框架。虽然我们有时会犯错,但一旦遇到错误,我们会学习并迭代改进模型及系统。我们感激 ChatGPT 用户的反馈,让我们时刻保持责任感,并期待在未来几个月内分享在上述领域的进一步进展。

滚动至顶部