NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

为了让大家能够体验上ChatGPT4.0,小编找了能用GPT-4的网站,亲测好用!

www.chatgp4.com

一切都要从 ChatGPT 的横空出世说起……

在它问世之前,NLP(自然语言处理)社区一片祥和。然而,ChatGPT的出现让这个领域来了一场前所未有的冲击,许多人因此感到震惊!瞬息之间,整个NLP圈发生了剧变,工业界迅速跟进,资本热潮涌动,纷纷开始了复刻ChatGPT的征程;而学术界却一时之间陷入了困惑之中……大家都慢慢开始相信“ NLP已经解决了!”

然而,从最近依然活跃的NLP学术圈和层出不穷的优秀研究来看,事实并非如此,甚至可以说“NLP正变得愈加真实!”

这几个月,北航、Mila、香港科技大学、苏黎世联邦理工学院(ETH)、滑铁卢大学、达特茅斯学院、谢菲尔德大学以及中科院等多家机构经过系统全面的调研,联合撰写了一篇长达110页的论文,系统阐述了后ChatGPT时代的技术链:交互。

论文地址:https://arxiv.org/abs/2305.13246

项目资源:https://github.com/InteractiveNLP-Team

交互的全新视角

与传统的“人在环路(HITL)”和“写作助手”等交互形式不同,这篇论文讨论的交互有着更高、更全面的视角:

对于工业界:如果大模型面临事实性和时效性等难以解决的问题,ChatGPT结合其他工具是否能够解决这些问题?例如,通过类似于ChatGPT插件的方式,让其与工具进行交互,帮助我们完成订票、订餐、绘图等任务。换句话说,我们可以通过系统化的技术框架来缓解目前大模型存在的一些局限。

对于学术界:真正的AGI(通用人工智能)是什么?早在2020年,深度学习领域的三位领军者、图灵奖获得者Yoshua Bengio就描绘了交互型语言模型的蓝图:一个能够与环境以及其他智能体进行互动的语言模型,才能实现最全面的语言语义表示。从某种程度上,人与环境及智能体的交互是人类智慧的基础。

因此,让语言模型(LM)与外部实体以及自我进行交互,不仅有助于弥补大模型的固有缺陷,还可能是通向AGI的一个重要里程碑!

什么是交互?

“交互” 并非作者的臆断。自ChatGPT问世以来,许多关于NLP领域新问题的研究相继出现,例如:

  • Tool Learning with Foundation Models 讨论了如何让语言模型使用工具进行推理或执行实际操作;
  • Foundation Models for Decision Making: Problems, Methods, and Opportunities 探讨了如何使用语言模型来执行决策任务;
  • ChatGPT for Robotics: Design Principles and Model Abilities 阐明了如何使用ChatGPT增强机器人能力;
  • Augmented Language Models: a Survey 讲述了如何利用思维链、工具使用等方法增强语言模型,并指出语言模型使用工具对外部世界的实际影响;
  • Sparks of Artificial General Intelligence: Early experiments with GPT-4 描述了如何用GPT-4执行各种任务,包括与人、环境及工具的交互案例。

由此可见,NLP学界的关注点逐渐从“如何构建模型”转变为“如何构建框架”,即将更多实体纳入语言模型训练与推理的过程。最为典型的示例是大家熟知的“基于人类反馈的强化学习”(RLHF),其基本原理就是使语言模型从与人类的互动中学习,这一思想赋予了ChatGPT更大的成功。

可以说,“交互”这一特性已成为ChatGPT之后NLP领域的主流技术发展路径之一!作者们首次定义并系统解构了“交互式NLP”,并基于交互对象的维度,全面讨论了各种技术方案的优缺点和应用考量,包括:

  • LM与人类的交互:以更好地理解和满足用户需求,个性化回应,并改善用户体验;
  • LM与知识库的交互:丰富语言表达的事实知识,增强回应的背景相关性;
  • LM与模型和工具的交互:有效分解和解决复杂的推理任务;
  • LM与环境的交互:学习基于语言的实体表征,有效处理与环境观察相关的任务。

在交互的框架下,语言模型不再是单纯的模型,而是可以观察、行动和反馈的基于语言的智能体。

与某个对象进行交互,作者们称之为“XXX-in-the-loop”,表示该对象参与了语言模型的训练或推理,并以级联、循环、反馈或迭代的形式参与其中。

与人互动

让语言模型与人类进行互动的方法可分为三种:

  1. 使用提示进行交流
  2. 使用反馈进行学习
  3. 使用配置进行调节

与此同时,为了实现可规模化的部署,常常使用模型或程序模拟人类的行为或偏好,从人类模拟中学习。

ChatGPT4.0中文网

总体来说,与人互动的核心问题是对齐问题(alignment),即如何使语言模型的响应更加符合用户需求,确保其有用、无害且合理,为用户提供更好的体验。

  • 使用提示进行交流:强调互动的实时性和持续性,类似于对话式AI的思路,通过多轮对话使语言模型的响应逐渐对齐用户的偏好,通常不需调整模型参数。
  • 使用反馈进行学习:这是当前进行对齐的主要方式,让用户为语言模型的响应提供反馈。这种反馈可以是简单的好/坏标记,也可以是更详尽的自然语言反馈。典型例子为InstructGPT的RLHF,模型通过人为标注的数据来训练奖励模型,从而让模型能够最大化这些反馈。
  • 使用配置进行调节:这是一种特殊的交互方式,用户可以直接调整语言模型的超参数或级联方式。例如,谷歌的AI Chains允许用户通过UI拖拽的方式调整链条的节点连接。
  • 从人类模拟中学习:特别是在训练过程中,这种方式有助于促进上述三种方式的规模化部署,因为使用真实用户进行训练常常不现实。例如,RLHF通常需要一个奖励模型来模拟用户偏好。

最近,斯坦福大学的Percy Liang教授等人构建了一个系统化的Human-LM交互评测方案,感兴趣的读者可以参考这篇论文。

与知识库的互动

语言模型与知识库互动的步骤包括:

  1. 确定知识补充来源
  2. 检索相关知识
  3. 使用知识进行增强

总体来说,与知识库交互可以减轻语言模型的“幻觉”现象,提高输出的事实性和准确性,并改善时效性。

“知识来源”分为两类,封闭的语料知识(如WikiText)和开放的网络知识(如搜索引擎获取的信息)。

“知识检索”方式则可以分为四种:

  1. 基于语言的稀疏表示及词汇匹配的稀疏检索;
  2. 基于语言的稠密表示及语义匹配的稠密检索;
  3. 基于生成式检索器的方式;
  4. 基于强化学习的检索。

与模型或工具的互动

这种类型的交互主要目的是将复杂任务划分为多个子任务。这是“思维链”(Chain of Thought)核心思想的体现。不同子任务可由不同能力的模型或工具来解决,这不仅提升了语言模型的推理、规划和决策能力,也有助于减少模型的“幻觉”现象。

在某些情况下,显式地划分复杂任务可能很困难,这时可为不同语言模型赋予不同的角色,以便通过彼此间的协作自然地形成分工方案。这种交互可简化任务解决流程并模拟人类社会。

模型与工具的交互有三种操作类型:

  • 思维(Thinking): 模型自我交互,进行任务分解及推理;
  • 行动(Acting): 模型调用其他模型或外部工具以协助推理或对外部世界产生影响;
  • 协作(Collaborating): 多个语言模型相互协作,完成特定任务。

与环境的互动

语言模型与环境的交互属于两个不同的范畴,语言模型擅长高层次推理,而环境依赖于具体的感官信号。为了使语言模型能够有效地与环境互动,主要需要努力解决两个方面的问题:

  1. 模态基础(Modality Grounding):让语言模型能够处理多模态信息,如图像和音频;
  2. 适应基础(Affordance Grounding):让语言模型在特定场景下对合适的对象执行合理的动作。

模态基础的一个典型示例是视觉-语言模型。对适应基础的考虑则涉及如何在特定任务条件下进行场景感知和可能动作的识别。

交互接口

在论文的交互接口部分,作者们系统讨论了不同的交互语言和媒介,及其优劣,包括:

  • 自然语言:探讨其在泛化性和表达性方面的特点;
  • 形式语言:如代码和数学公式,讨论其可解析性和推理能力;
  • 机器语言:如软提示和离散化视觉token;
  • 编辑:对文本进行删除、插入等操作;
  • 共享记忆:如硬内存和软内存,探讨两者的特点及局限。

交互方法

论文还全面讨论了各种交互方法,包括:

  • 提示(Prompting):不调整模型参数,仅通过提示工程调用语言模型,包括上下文学习、思维链提示、工具使用提示等;
  • 微调(Fine-Tuning):进行模型参数调整,以从交互信息中学习更新;
  • 主动学习(Active Learning):交互式主动学习算法框架;
  • 强化学习(Reinforcement Learning):交互式强化学习算法;
  • 模仿学习(Imitation Learning):交互式模仿学习算法框架。

文章最后讨论了交互式NLP的应用及未来发展挑战,涵盖对齐、社交具身化、可塑性、速度与效率、上下文长度、长文本生成等多方面问题。

虽然本文未能详细覆盖所有主题,但原论文中仍有不少内容值得深入了解,感兴趣的读者可以查看原文获取更多细节。

滚动至顶部