大模型没有自我改进能力？苏黎世理工联合Meta AI提出小模型架构，显著提升大模型表现

近期，多位业界大佬发表文章指出，大型语言模型（LLM）存在自我改进能力不足的缺陷，且经过自我改进后，其回答质量有时甚至会显著下降。这种自我改进的无效性，主要源于LLM无法准确判断原始答案的正确与否，以及是否需要进行改进。

为了应对这一问题，苏黎世理工学院与Meta AI联合提出了一种新策略，名为ART（Ask, Refine, and Trust）。该方法通过提出关键问题，帮助判断LLM是否需要改进其原始输出，并通过评估初步与改进后的结果来确定最终答案。在两个多步推理任务——GSM8K与StrategyQA的实验中，ART相较于以往的自我改进方法，提升了约5个百分点。

论文标题：

The ART of LLM Refinement: Ask, Refine, and Trust

论文链接：

https://arxiv.org/pdf/2311.07961.pdf

方法概述

该方法的整体框架如图所示。作者训练了两个小型模型，分别命名为Asker和Truster。Asker负责对初始问题及输出进行提问，以判断原输出是否解答了所有子问题；若未能正确回答，则转入下一步进行改进。之后，Truster模型对原始输出和改进后的输出进行评估，确定最终的结果。

生成初始预测
首先，LLM针对问题生成初步的预测结果。在此过程中，采用了思维链（CoT）与子问题分解（Decomp）两种方法，以提高初始答案的准确性。
Asker
由于对每个样本进行改进可能会误导模型，将更多正确的输出转变为错误，从而降低整体性能，作者设计了Asker模型。它通过任务特定的知识和预期结果进行训练，只对Asker不确定的样本进行改进。
具体而言，先由LLM为训练集中的每个样本生成k个预测，并添加子问题，以确认原问题是否得到解决，接着根据结果判断是否需要改进。
改进（Refine）
如果Asker的判断结果是“需要改进”，则利用LLM根据原输入及Asker生成的子问题对原始输出进行修改。
信任（Trust）
在此阶段，我们得到两个预测结果：初始输出和改进输出。为决定使用哪个作为最终答案，作者训练了一个Truster模型。
鉴于改进后的答案通常与初始答案相似，作者采用与Asker相同的数据进行训练，输入为问题x，并通过挑选具有正确与错误预测的样本来构建对比，进而制定损失函数，通过评分选择最终输出。

实验设置

本研究采用了两个多步推理任务的数据集。GSM8K数据集为小学数学应用题，在训练集上包含7473个样本，测试集上包含1319个样本，每个样本需经过2到8步来最终解决。此外，该数据集还包括对应正确解决方案的子问题。

StrategyQA则是一个开放域问题的问答基准，包含2290个训练示例，作者将前20%用作测试集，剩余的80%用于训练。

实验结果与分析

实验采用了LLaMA的不同变体（7B、13B及70B）进行微调，同时收集的数据用于训练Asker模型，并最终对LLaMA 13B模型进行微调以获得Truster模型。以下为各阶段所用训练数据的概要：

LLaMA 70B模型的微调训练数据
Asker模型的数据
Truster模型的数据

实验结果比较

评估发现，使用LLaMA 70B（包括预训练及Chat版本）、ChatGPT（Turbo与Instruct）及GPT-4作为基线模型的表现，实验结果如下：

在GSM8K数据集中，LLaMA 70B的性能明显低于ChatGPT Turbo。此外，在ChatGPT使用子问题分解时，效果优于CoT，但在LLaMA 70B中则正好相反。
自我改进在某些情况下能够提高性能，但在其他情况下会导致性能下降，而将Refinement与Trust模块结合使用，几乎在所有情况下都能稳定提升初始预测。

结论与限制

本文提出了一种改进策略——ART（Ask, Refine, and Trust），通过较小模型训练的Asker来决定是否进行改进，通过Truster确定是否采纳改进结果。研究表明，经过精心训练的小模型在某些场景下能够超越大型模型的自我改进能力。

然而，本文仍存在一些局限性。首先，Asker模型的训练数据源于GSM8K和StrategyQA，许多任务可能无法获取训练数据。尽管可以使用LLMs生成数据，但未测试生成的训练数据的有效性。此外，作者在StrategyQA中使用了数据集提供的事实，对于真实世界中可能需要借助外部工具的信息提取方式，尚未进行必要的测试。

总体而言，ART框架虽然有效，但分步骤训练Asker与Trust可能较为复杂。作者测试了一次性完成的效果，发现性能相较于分步骤框架有所下降，这表明一次性生成整个过程对LLM而言仍存在挑战，期待未来在端到端的实现中取得显著进展。