在当前对ChatGPT的研究领域中,各种探索层出不穷,诸如利用ChatGPT进行化学实验、心理测试、甚至伪造越狱场景以泄露隐私,以及将多个ChatGPT组合成小型社会等案例比比皆是。
最近,清华大学的研究团队在大模型研究领域另辟蹊径,他们不仅构建了一个数据集,以记录ChatGPT随时间的“版本迭代”,更通过逆向分析探索了OpenAI对ChatGPT所进行的改进,并推演出了ChatGPT的进化轨迹。相关的论文和项目链接如下:
论文标题:
ChatLog: Recording and Analyzing ChatGPT Across Time
论文链接:
论文 PDF
项目链接:
GitHub 项目
首先,我们来看看图示,显然,OpenAI在面对如此庞大的用户基数时,必然会利用这些海量的“优质数据”为ChatGPT不断迭代与进化。例如,在3月9日的ChatGPT版本中,仅给出了相对简单的回答,显然,在那时ChatGPT还未完全理解“Explain Like I am 5”的概念。而到了4月9日,ChatGPT已显著改进,表达更加生动,并学会了使用比喻等修辞手法。
一个自然而然的问题是:“ChatGPT究竟是沿着什么方向变化的?”如果我们能弄清楚这个问题,除了能满足好奇心外,对于ChatGPT的客观评估工作也大有裨益。但这并不是OpenAI会在文档中提供给我们的量化信息,因此,本文应运而生。总的来说,论文完成了两项重要工作:一是构建了按月和按日记录ChatGPT变化的数据集;二是基于该数据集分析了ChatGPT的进化轨迹,得出了许多有趣的结论。
ChatLog——ChatGPT进化数据集
关于数据集,作者团队从两方面进行构建:一种是以月份为时间维度,另一种是以日期为时间维度。对于按月记录的数据集,作者从HC3(包含大约两万四千条问题及其对应人类专家答复和ChatGPT答案的数据集)、Jack of All Trades(评估ChatGPT在25个公共NLP数据集上执行25种不同NLP任务性能的数据集)及其他多个相关数据集中提取了涵盖计算机、数学和金融等不同领域的共38,730个问题-答案对,构成了ChatLog-Monthly。
为了监测ChatGPT每天的变化,论文团队从HC3数据集中随机抽取1000个问题,并在2023年3月5日至4月9日期间反复向ChatGPT提问。这些问题中,有一部分是开放性的问题,可能需要ChatGPT借助外部知识来回答,而另一部分则是分析性的问题,主要考查其分析能力。总体而言,问题类型中约有30%为“What”类型,30%为“How”类型,58%为“Why”类型,剩余的类型占6%。根据ChatGPT在这些问题上的表现,可以评估其在多领域知识理解、推理和解释等方面的能力。
分析——ChatGPT的进化轨迹
通过数据集与相应评价指标,我们可以追踪ChatGPT随时间的进化轨迹。下表显示了与1月份的ChatGPT在各种任务数据集上的表现对比,可以看出,New ChatGPT在各方面几乎都有了显著提升。
总结来看,与1月相比,ChatGPT在以下几方面进行了显著升级:
- 攻击性与垃圾文本分类:在这类任务中,New ChatGPT的性能达到接近现有模型的SOTA水平,显示其在识别攻击性与垃圾文本方面的能力有了显著提升,这可能是开放用户反馈造成的结果。
- 数学推理能力:在需要数学推理的任务中,ChatGPT的表现显著提升,MathQA数据集的准确率从71.40%提升至78.00%。
- 推理能力:从图表中可以看出,在3月5日的ChatGPT由于错误的推理而得出错误答案,但到了4月,ChatGPT的推理能力已经得到提升,能够正确理解问题并推导出正确答案。显然,在这样快速迭代的过程中,如果未对ChatGPT的时间版本进行固定,极有可能因忽视其升级而导致评估结果出现偏差。
值得注意的是,在一些依赖先验知识的任务中,ChatGPT的性能有下滑现象。例如,在WNLI数据集上,ChatGPT的准确率从1月份的81.69%下降到了71.83%。这表明,随着语料的涌入,对于ChatGPT而言,并不一定是一件好事,增加的人机互动可能导致其机器幻觉的加重。
另一方面,在ChatLog-Daily中,这种变化可以更细致地可视化(后缀p、r、f分别表示精确度、召回率和F1分数):
可以看到,ChatGPT生成的答案变得更加简洁,并在追求精度与广度之间寻求平衡,以提高可读性。然而,仅仅分析这种准确率和召回率,其实难以深入洞察OpenAI究竟进行了何种改进,这些指标也无法解释为何ChatGPT在短时间内学习到用比喻来解释问题。因此,作者团队进一步进行了全面的特征提取,具体而言,团队持续向ChatGPT投送指定的query,并收集到相应维度的回复矩阵,再从每一天的回复中提取出情感特征、知识特征、语言特征等共265个丰富特征。
基于这些特征,作者探索了特征与得分之间的关系,发现语义特征与召回率正相关,但与准确率负相关。这与之前ChatLog-Daily的分析结果相结合,表明OpenAI在语义丰富度方面强化了ChatGPT。
那么,在快速迭代中,ChatGPT哪些特征是稳定的呢?论文定义了一个特征稳定性的评估指标——变异系数。通过在ChatLog-Daily上的测试,可以看到,最稳定的指标是可读性与语义清晰度,即这几个指标是ChatGPT最为出色的核心竞争力。
总结与讨论
总体而言,本文从ChatGPT的时间变化性出发,深入探讨了ChatGPT所关注的特征,并关注到这些特征的动态变化。这为许多基于ChatGPT的探索性研究铺平了道路,也在一定程度上避免了因ChatGPT的进化所导致的错误结论。
或许,这种对ChatGPT进化数据集的记录与开源,能为我们编写大模型的历史留下丰富的资料库。