脑筋急转弯:模型表现解析及ChatGPT的独特优势
一个烙饼煎一面需要一分钟,那么两个烙饼在煎两面时需要几分钟?如果你不小心掉进这个思考陷阱,答案可能会让你意外。然而,让我们看看大语言模型在解答这类脑筋急转弯时的表现如何。研究表明,模型越大,回答错误的可能性就越高,甚至千亿参数的大模型也难以幸免。但值得一提的是,ChatGPT在这些问题上的表现却相对不错。让我们深入探讨这一现象。
论文概述
论文题目为《Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4》。可以通过以下链接查看论文的详细内容:论文链接。
脑筋急转弯测试
作者采用了认知反思测试(Cognitive Reflection Test,CRT)作为脑筋急转弯的测试数据。该测试广泛用于心理学领域,以衡量人类的思维习惯及其是否倾向于直觉思维。
例如:
- CRT-1:苹果和梨共花了1元1,两者之间的价差为1元,梨花了多少钱?直觉答案:0.1元(1.1-1),正确答案:0.05元。
- CRT-2:5个人种5棵树花5分钟,10个人种10棵树需要多长时间?直觉答案:10分钟,正确答案:5分钟。
- CRT-3:培养皿中的细菌每分钟面积翻倍,48分钟填满,问填满一半需要多久?直觉答案:24分钟,正确答案:47分钟。
- 语言逻辑陷阱:刚上小学的小红参加高考,她会考几科?直觉答案:6科,正确答案:小学生不参加高考。
模型表现
根据研究,模型的表现随着参数的增加而变化。较小的模型(如117M的GPT-1至2.7B的GPT-Neo)在回答正确答案(绿色)和直觉答案(红色)的比例上有所提升,错误答案(黄色)的比例有所下降。然而,随着模型规模进一步扩大(如从2.7B的GPT-Neo到175B的GPT-3),无关答案的比例减少,直觉答案的比例上升,而正确答案的比例却不升反降。这表明,包括BLOOM、LLAMA和GPT-3在内的大语言模型在脑筋急转弯上都面临了明显的困境,甚至经过强化学习和指令调整的text davinci-002/003也未能幸免。
而在经过指令调整的ChatGPT和GPT-4中,正确答案的比例显著提高。究竟是什么原因使得ChatGPT在这类问题上的表现如此出色,仍是个谜。
不同模型的表现对比
研究中进一步显示,在各类脑筋急转弯中的表现,GPT-3(text davinci-003)、ChatGPT和GPT-4之间存在显著差异。尽管通过改换提问形式可以略微提高正确率,但整体差距不大。
通过少监督的展示学习,GPT-3的正确率有所上升,即便展示了约40个样本,其准确率仍无法达到无监督的ChatGPT水平,更不用说GPT-4了。
结论
这篇论文揭示了关于脑筋急转弯的一种有趣现象,探讨了大语言模型的表现。尽管作者尝试了多种方法来提升模型的表现,包括改变提问形式和增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的答题能力始终难以追赶上ChatGPT的水准。究竟是什么令ChatGPT在解答这些脑筋急转弯时表现出独特的能力,这仍然值得我们进一步研究与探索。