高效又稳定的ChatGPT大模型训练技巧总结，让训练事半功倍！

前言

近期，ChatGPT成为了全网热议的话题。这款基于大规模语言模型技术（LLM，Large Language Model）的人机对话工具，已引起了广泛关注。当前主流的大规模语言模型普遍采用Transformer架构，并通过大量数据进行自监督训练。然而，如何构建自监督训练数据？在基础的Transformer结构上，各家又做出了哪些创新呢？为了确保训练过程高效而稳定，又有哪些“黑科技”在助力呢？今天，我们将介绍一篇来自人民大学的综述论文，揭秘这些大模型的训练技巧。

论文地址：
Link to paper

训练数据的收集与处理

大规模语言模型对训练数据的规模与质量有着更高的要求。那么，当前的大模型都使用了怎样的语料呢？这些语料发挥着怎样的作用？又该如何进行清洗和预处理？大模型在处理训练数据时还有哪些特殊的细节需要注意？

数据来源

大规模语言模型的训练数据一般可分为一般性语料与特殊语料。一般性语料，例如网页、书籍和对话文本，占据了较大的比例，能够在多种话题上为模型提供语言知识；而特殊语料，如多语言数据、科技语料和代码等，可以为模型引入解决特定任务的能力。现有的大模型训练语料的成分比例如下：

一般性语料中，网页语料的规模相对较大，虽然其中包括Wikipedia等高质量语料，但同样也混杂了垃圾邮件等低质量内容，因此需要过滤。问答语料，如来自Reddit等社交媒体平台，可以潜在地提升模型的问答能力。社交媒体通常涉及多人对话，能够将对话语料整理成树状结构，使得每一条支路都是一段完整的对话内容。书籍语料则提供了长篇书面文本，帮助模型学习严格的语言学知识，增强长距离依赖建模，从而提高生成内容的连贯性。

特殊语料方面，多语言语料有助于模型在翻译、多语言摘要和问答等任务上的表现。科技语料源自arXiv论文、教科书和数学网络社区，帮助模型掌握专业符号、术语和表达方式，提升其在科技任务推理中的表现。代码语料主要来源于Stack Exchange等问答社区以及GitHub上的开源项目，其中包含代码、注释和文档。近期的研究表明，代码语料能够提升模型的复杂推理能力，因为它具备长距离依赖和精确逻辑的特点。

获取开源语料源的相关地址，可以参考我们之前推送的资源：训练ChatGPT的必备资源：语料、模型和代码库完全指南。

清洗与预处理

在获得语料后，通常需要通过如下流程进行清洗和预处理，以提升数据质量。

具体而言，第一步是语料清洗，可以利用Wikipedia等样本作为正例，训练一个二分类器来筛选高质量语料。然而，近期的研究表明，这种筛选方式可能存在偏见，因此现在更推荐使用启发式规则进行筛选，例如剔除非目标任务语言、丢弃低困惑度数据、删除标点/符号过多或过长的句子，并剔除包含特定词汇（如HTML标签、链接、脏话、敏感词）的语句。

第二步是去重，处理重复词汇或短语的句子，以及重复率（基于词/n-grams共现）过高的段落。这样可以提升训练集质量，减少生成内容的重复现象，并避免测试集泄露所导致的过拟合问题。

第三步是通过关键词等方式剔除用户隐私信息（如姓名、地址、电话等）。

最后，经过三步清洗后，就可以进行分词，并准备训练。分词方面并没有特别复杂的技术，通常使用现成的分词器（如GPT-2）或者基于SentencePiece、Byte Pair Encoding等算法建立分词方法。

一些注意细节

大模型的特点要求在处理预训练语料时，需要关注一些特殊的细节：

调节语料混合比例。不同来源的语料混合比例需要合理调节，不能简单地以语料规模为依据。均衡的语料比例有助于增强模型的泛化能力，而特定类型的语料则可以提升模型在特定任务上的表现。
规模匹配。语料的规模应与模型的参数规模相匹配。经验表明，在给定算力的情况下，语料的token数与模型参数数相当时，模型的表现将相对更佳。因此，不应一味追求大规模语料，更应兼顾控制规模、提升质量和充分训练。
重视语料质量（再次强调）。实验表明，低质量语料即使不使用相比使用效果更佳。过多的重复数据会导致训练过程失败（崩溃或落入无意义的局部最优）。

模型结构与任务

主流的大规模语言模型普遍基于Transformers结构。从下图可见，绝大多数模型都采用了因果解码器结构，即仅使用解码器（单向注意力遮掩）来处理输入和输出内容。这或许是由于GPT-3展现出因果解码器的强大能力，使得研究者对其他结构的探索兴趣减少。

另外两种大规模语言模型结构，编码-解码器结构类似于最初的机器翻译模型，采用两个不共享参数的组件分别处理输入和输出内容。而前缀解码器与因果解码器相似，但在输入部分未采用单向注意力遮掩，允许双向注意力。这有点像共享参数的编码-解码器结构。

除了Transformer结构的选择，上表还展示了一些模型设计的细节，具体包括：

层归一化（Layer Normalization）：是确保模型收敛、缓解训练崩溃的重要手段。经典的Pre Norm在每个多头注意力层与前馈网络层前加层归一化。Pre RMS Norm则在Pre Norm的基础上去掉了归一化中的均值部分，仅进行标准差的缩放，让优化过程更加平滑，是目前主流的推荐方法。此外，在Embedding后加Norm虽能使优化更平滑，但会明显降低模型表现，现今一般不再采用。
激活函数方面，传统的ReLU已不再适用。现越来越多研究认为SwiGLU和GeGLU能够带来更优表现，但相较于GeLU等函数，它们会引入更多参数。
位置信息编码：传统上有学习的绝对位置编码（Learned）与针对相对距离的相对位置编码（Relative）。后者在处理测试时使用更长语料时具有更好的外推性。最近RoPE方法被广泛应用，其将query和key向量加入绝对位置编码，使得其内积中包含相对位置信息的表达。

此外，上表中还汇总了部分超参数信息，如层数、头数、隐层规模和最大上下文长度（MCL）。

相较模型结构细节，预训练任务的设计则相对简单。最常见的预训练任务是自回归语言模型，模型逐一地根据输入历史预测下一个词，这一方法被广泛应用于GPT-3等语言模型。像T5和GLM-130B等模型则引入了降噪自编码的训练目标，帮助模型还原输入中被遮掩的语段。

优化设置与技巧

为了使训练过程更加高效和稳定，大规模语言模型的训练还采用了一系列“黑科技”。具体而言，这些技巧旨在：1. 提升模型最终表现；2. 提升模型收敛速度；3. 避免模型收敛到高损失的局部最优或出现不收敛现象；4. 避免训练过程崩溃。当前已有的大模型公开的优化设置与技巧如下表所示。

Batch大小：通常设置得较大，以更有效地利用大规模训练数据，并提高训练过程的稳定性。比如，使用8196的batch size（每个batch处理1.6M个token输入）。GPT-3采取动态调整batch size的方式，使其处理的token数从32K逐步增大到3.2M。
学习率：通常较小，并包括warm-up设置，以确保训练的平稳进行。例如，在前0.1%~0.5%的训练步骤中，设置一个线性的学习率递增。峰值学习率一般在一定范围内，之后则采用余弦衰减策略，逐渐降低学习率，并在收敛前再降低约10%。
优化器：一般采用Adam、AdamW和Adafactor等。其中，Adafactor是Adam的一个节约显存的变种。

其它稳定训练过程的技巧包括梯度裁剪（gradient clipping），阈值一般设定为1.0；weight decay（类似于L2正则）则为0.1。尽管如此，大模型的训练过程仍然会出现崩溃的情况。PaLM和OPT提出在发生崩溃时可以从之前的某个中间节点继续训练，并跳过导致崩溃的训练数据。GLM发现，embedding层常出现异常梯度，需适度调整。

数据并行性（Data parallelism）：是最常用的一种多卡训练方式。将训练数据分配到多显卡上分别进行前向和反向传播，再汇总梯度更新参数，实现模型同步。该方法可以解决单卡batch过小的问题。
流水线并行性（Pipeline parallelism）：在单块显卡上仅存储和计算某些相邻层，为了缓解时序操作等待带来的低效问题，GPipe和PipeDream等工具提出在流水线中集成多个batch的数据，并异步更新参数。该方法能够缓解单卡处理batch-size为1的困难。
张量并行性（Tensor parallelism）：对于大矩阵乘法运算，将矩阵进行拆分，从而实现较小矩阵的乘法拼接。该方法由Megatron-LM、Colossal-AI等工具实现，有效减轻显存占用，同时会带来一定的通讯成本。
混合精度训练：通过使用半精度浮点计算替代训练过程中的部分参数，特别是在前向传播部分，从而降低显存和提升速度。A100等显卡对半精度计算进行了优化，使得混合精度训练更加高效。近期也有研究提出用Brain Floating Point（BF16）替代传统的FP16，以增加指数位、减少有效数字。不过，虽然混合精度计算在速度上有明显提升，但经验表明仍可能影响准确度及模型表现。

ZeRO：DeepSpeed提出的方案，旨在进一步优化数据并行的同时提高模型的显存空间并行性。上述混合精度计算流程表明，大量参数之外的存储资源被消耗掉。事实上，1.5B参数的半精度GPT-2在32GB显卡上无法训练，正是这个原因。ZeRO的主要思想在于将梯度、动量等更新相关信息也分布式存储于每块显卡上，从而实现各显卡更新对应参数并同步更新；在更新梯度后有效地释放相关显存。由于该方法相对复杂，此处不做详细阐述。PyTorch的DeepSpeed和FSDP工具均支持ZeRO。

在实际使用中，上述优化设置通常会组合使用。例如，BLOOM模型使用384块A100，采用8路数据并行、4路张量并行和12路流水线并行，并运用基于BF16的混合精度训练策略。DeepSpeed、Colossal-AI、Alpa等开源工具亦支持并行相关的功能。

此外，为了减少试错成本，GPT-4还提出了可预测的扩展，通过较小的神经网络模型预测大模型设置的可能表现，PyTorch的FSDP则支持让CPU分担一部分计算压力。

结束语

大规模语言模型训练不仅是一个科学问题，更是一个复杂的工程问题。科学家与工程师必须通力合作，才能有效推动大模型的发展。各种训练技巧助力提升大模型的训练效率与稳定性，然而，了解工程细节仅通过论文是远远不够的。深入掌握这些内容，还需认真阅读开源项目代码并进行实践操作。