ChatGPT 问世一周年之际，开源大模型能否迎头赶上？

就在11月30日，ChatGPT迎来了它的问世一周年，作为OpenAI推出的强大AI，它在过去一年中取得了巨大的进步，迅速吸引了各个领域的用户。

回顾过去一年
让我们先来回顾一下OpenAI和ChatGPT在过去一年中的重大事件（表格由ChatGPT辅助生成）：

（表格可视为图像插入）

在这个具有里程碑意义的时刻，我们在庆祝这一引领变革的产品时，也要关注新一代开源大语言模型的崛起。

这些开源大模型发展到了什么程度？能否赶超一年前发布的ChatGPT？在这篇综述中，我们将深入探讨这些开源LLM的强大之处，并对比它们和ChatGPT在各个任务领域的表现。相信这些模型将为自然语言处理领域的未来研究方向提供新的启示。

论文题目：
ChatGPT’s One-year Anniversary: Are Open-Source Large Language Models Catching up?

论文链接：
https://arxiv.org/abs/2311.16989

由于ChatGPT具备降低劳动成本、自动化工作流程、并为用户提供全新体验的潜力，它在问世一个月内便吸引了1亿用户和大量商业投资。然而，ChatGPT的闭源特性使得用户和研究人员难以获取其技术细节，无法深入了解其确切的架构、预训练数据和微调数据。

不开源ChatGPT vs 开源LLM

ChatGPT不开源的缺点

缺乏透明度：这一点使得评估其对社会潜在风险的能力（尤其是生成有害或不实内容的情况）变得困难。
可复制性问题：由于闭源特性，ChatGPT的性能可能随时间变化，阻碍了研究人员和开发者进行可复现的实验和结果验证，这对长期效果的信任产生了负面影响。
服务不稳定：ChatGPT经历过多次故障，包括近期影响许多忠实用户工作和学习的大规模宕机事件，导致依赖该技术的企业和开发者面临服务中断的风险。
高昂的调用费：企业使用ChatGPT的API面临高昂的费用，从而增加了使用该技术的经济负担。

开源LLM的优点

透明度与可控性：开源LLM提供更高的透明度，用户和研究人员可以访问模型的源代码和详细文档，了解其内部工作原理，这有助于评估模型的安全性和可靠性。
社区参与与反馈：开源模型促进了社区广泛参与，研究人员和开发者可以共同改进模型，提出建议，并报告问题，这种反馈循环帮助及时纠正潜在问题并提升模型性能。
可持续发展：开源LLM的持续发展受益于全球社区的共同努力，使其更具鲁棒性和可持续性，能够适应不断变化的需求和挑战。
避免依赖单一提供者：采用开源LLM可以避免对单一提供者的过度依赖，从而降低由于服务不稳定或其他问题而产生的风险，这种多样性有助于保障业务的连续性。

（图1：不同开源LLM在各种通用基准上的概述）

如图1所示，在某些任务上，表现最佳的开源LLM已经超越了GPT-3.5-turbo。然而，随着几乎每周都有新的开源LLM发布，以及大量用于评估和比较LLM的数据集和基准不断涌现，从中找出最佳LLM变得越来越具有挑战性。为帮助读者更好地了解这一领域的最新进展，本文作者对近期关于开源LLM的研究进行了综述，提供了在各个领域与ChatGPT相媲美或超越的开源LLM的全景。

（图2：LLM能力和表现最佳的开源LLM类型）

图2展示了在各种任务中超越或赶上ChatGPT的开源LLM。

开源LLM与ChatGPT的比较

通用能力对比
如表1所示，Llama-2-chat-70B在一些基准上表现优于GPT-3.5-turbo，但在其他测试中仍稍显不足。Zephir-7B通过优化偏好超越了70B的LLM，而WizardLM-70B和GodziLLa-70B则能够与GPT-3.5-turbo媲美。整体而言，GPT-4在多个评估指标上表现最佳，这一水平是目前许多开源模型所无法比拟的，也是未来努力的方向。

（表1：模型在通用基准上的比较）

智能体能力对比
在基于LLM的智能体任务中，Lemur-70B-chat在环境探索和任务特定预训练方面表现出色，AgentTuning在未见过的智能体任务上有所提升，ToolLLama更擅长使用工具，而Gorilla在编写API调用方面优于GPT-4。

（表2：模型在智能体基准上的性能比较）

逻辑推理能力对比
在逻辑推理方面，WizardCoder和WizardMath通过增强指令微调显著提升了推理能力，而Lemur和Phi则通过在更高质量的数据上进行预训练表现更为强大。
长序列建模能力
处理长序列仍是LLM面临的关键技术瓶颈之一，因为所有模型都受到最大上下文窗口的限制，通常长度在2k到8k token之间。在长上下文建模方面，Llama-2-long通过使用更长的token和更大的上下文窗口进行预训练，在特定基准上取得了进展。解决长上下文任务的方法包括使用位置插值扩展上下文窗口、对更长的上下文窗口进行微调以及利用检索器查找相关信息等。Xu等人（2023b）结合这两种技术，使Llama-2-70B在7个长上下文任务上的平均性能超越了GPT-3.5-turbo-16k。
特定应用能力对比
在特定应用能力方面，InstructRetro通过检索和指令微调提升了开放性问答的表现，MentaLlama-chat13B在心理健康分析数据集中超越了GPT-3.5-turbo，RadiologyLlama2在放射学报告分析中表现尤为出色，Stru-Bench在生成结构化回复方面优于GPT-3.5-turbo，Shepherd在生成模型反馈和批评方面达到了与GPT-3.5-turbo相当或更好的水平。
可信度方面的比较
为确保LLM能够在现实应用中赢得人类的信任，可靠性是重要考量因素。幻觉和安全性的问题可能会降低用户的信任度。提高数据质量有助于在微调阶段减少模型产生幻觉的风险，而在推理期间，现有技术包括特定解码策略、外部知识增强和多智能体对话等。

（表3：模型在幻觉基准上的性能比较）

然而，在人工智能安全领域，许多开源LLM仍未能与GPT-3.5-turbo和GPT-4匹敌，这些商业LLM以更安全和遵循道德的行为著称。尽管如此，随着强化学习与人类反馈（RLHF）过程的民主化，我们期待看到更多开源LLM在安全性方面的改进。

LLM的发展趋势

（图3：LLM的发展时间线，下半部分为闭源模型，上半部分为开源模型）

自从证明冻结参数的GPT-3在zero-shot和few-shot任务上表现卓越之后，研究者们已采取多种措施推动LLM的发展：

尝试通过增加模型参数量来提升性能，然而这些模型的闭源性限制了其应用范围，从而引发人们对开源LLM的兴趣。
积极寻找更佳的预训练策略（如Chinchilla和UL2）以及在预训练外开展指令微调的方法（如FLAN、T0和Flan-T5）。
去年OpenAI发布的ChatGPT推动了自然语言处理（NLP）领域的发展，随后Google和Anthropic分别推出了Bard和Claude。尽管它们在许多任务中表现突出，但与GPT-4相比仍存在性能差距。为了促进开源LLM的发展，Meta推出了Llama系列模型、Alpaca、Vicuna、Lima和WizardLM等。它们通过微调不断进化，同时也有其他工作致力于从头开始训练强大的LLM。未来，开发更强大、高效的开源LLM将是一个极具前景的研究方向。

最佳的开源LLM配置
作者还讨论了训练开源LLM的最佳实践：

数据：推广使用数万亿个来自公开可访问来源的数据tokens进行预训练，确保在道德层面上排除包含个人信息的数据。微调所需的数据量较小，但应保持高质量，特别是在专业领域，优质数据能显著提高模型性能。
模型架构：大多数LLM采用仅含解码器的Transformer架构，但通过不同技术优化效率。例如，Llama-2引入Ghost attention改进多轮对话控制，Mistral则利用滑动窗口注意力处理更长的上下文。
训练：使用指令微调数据进行监督微调（SFT）的过程至关重要。高质量结果通常需要数万个SFT注释，例如Llama-2使用了27540个注释。数据的多样性和质量在此过程关键。在RLHF阶段，近端策略优化（PPO）通常是优选算法，以使模型表现更加符合人类偏好和指令遵循，提高安全性。DPO作为PPO的替代选择，Zephyr-7B便采用蒸馏DPO，在各种通用基准上表现可与70B-LLM媲美，甚至在AlpacaEval上超越了GPT-3.5-turbo。

待改进之处
尽管许多开源LLM的涌现让我们看到了希望，依然存在一些需改进的领域：

预训练期间的数据污染：模型发布时通常不公开其预训练语料库的来源，可能在预训练过程中使用了一些基准数据，这些数据并未在预训练任务中的数据源中明示，导致数据污染问题。由于缺乏对模型预训练语料库来源的清晰认识，人们可能怀疑模型在实际应用中是否能有效泛化到不同任务和场景。要解决此问题，需要检测LLM预训练语料库，评估基准数据与广泛使用的预训练语料库之间的重叠情况，从而减轻数据污染对模型的影响。
在对齐方面的闭源开发：当前人工智能社区日益关注利用通用偏好数据，结合强化学习方法进行模型对齐，微调以匹配人类的偏好与反馈。然而，获取高质量、开放可用的通用偏好数据并不容易，只有少数开源LLM采用了RLHF进行对齐。有人提议为开源社区提供支持，以解决通用偏好数据稀缺的问题，促进更多开源LLM采用对齐方法。然而，在复杂的推理、编程和安全场景中，依然缺乏多样性和高质量的偏好数据，这是一个难点。
持续提升基本能力的困境：许多当前的模型尝试在预训练阶段投入大量努力改善数据混合，以构建更平衡与稳健的基础模型，但这一探索的成本通常较高，难以实际应用。模型要想超越GPT-3.5-turbo或GPT-4，主要依赖对这些闭源模型的知识蒸馏和额外的专家注释。虽然这种方法颇为高效，但过度依赖知识蒸馏可能会掩盖在扩展教师模型时表现的问题。此外，为使LLM适用于实际场景，注释智能体样式数据往往十分昂贵且耗时。事实上，仅依靠知识蒸馏或专家注释优化并不能真正实现基本能力的持续改进，可能会接近某种上限。未来研究可能必须探索无监督或自监督学习范式的新方法，以实现基本LLM能力的持续提升。

总结
通过对开源LLM与ChatGPT的详尽性能比较，作者深入剖析了若干背后现象。然而，文章的关键不仅在于简单的性能数字比较，更在于对背后现象的深刻理解。在不同规定或标准下，性能比较未必全面。我们应当意识到，理解“为什么”比“是什么”更有价值，所有研究都旨在不断改进，未来的关键在于探讨“怎么办”。

尽管开源是广大研究者共同追求的目标，实现此目标需要面对大规模训练和创新带来的高昂成本。这不仅需要投入大量时间和精力处理数据，还要考虑潜在的安全和道德伦理风险。

希望未来，随着相关研究的不断深入，我们能摆脱仅在特定领域或指标上绞尽脑汁比较性能以证明模型优越性的局面，而能通过真实感受开源LLM的表现来判断其是否能与优秀的商业LLM相媲美。我们对此深表期待。

ChatGPT 问世一周年之际，开源大模型能否迎头赶上？

相关文章