搞不定高考的ChatGPT，原来只有小学4年级水平

小学数学测试：ChatGPT与国产大模型的表现分析

此前，复旦大学的研究者让ChatGPT参加中国高考，结果显得惨不忍睹——特别是在理科数学这一科目，竟只得了二十多分（参见推送）。最近，小米AI Lab的研究者们决定降低测试难度，针对1700道中国小学数学题进行了实验，并测试了10个大语言模型。实验结果显示，ChatGPT的表现仅能达到小学四年级水平，而GPT-4则能够完成小学毕业的测试。同时，国产大模型如Baichuan、MOSS、ChatGLM2等的表现相对较差。让我们深入了解一下这个实验。

论文题目

CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

论文链接

点击查看论文

数据集

此次实验使用的小学数学题数据集CMATH来源于开源的小学练习册和考卷。每道题目都标注了年级（Grade）、推理步数（#Steps）和最大有效数字位数（#Digits），以此来评估难度。

实验结果

在实验设置上，研究者采用了零监督的方式，没有使用链式思维（CoT）等技巧，旨在最原生态地评估大模型的表现。不过，这种方式也可能导致模型的表现偏低。

针对不同年级的题目，实验结果显示，GPT-4在所有年级的测试中均超过了60分的及格线，而ChatGPT仅能达到四年级的及格水平。在国产大模型方面，只有ChatGLM2和Ziya-LLaMA-13B勉强达到了二年级的及格水平，其它模型在一年级的题目中也难以获得50分以上的成绩。

但即便是表现最好的GPT-4，与大家小学时的成绩相比，仍然有一定差距。

不同推理步骤和计算位数的表现

在对不同推理步骤和数字位数问题的表现进行观察时，结果显示：当推理步数或数字位数增加时，国产大模型的表现明显下滑。

研究者们还尝试增加干扰条件（Distractors）来测试大模型的鲁棒性。

实验结果显示，GPT-4表现出较强的抗干扰能力，而其他大模型在这方面的表现则显得相对薄弱。

总结

本研究通过测试中国小学数学题评估了GPT-4、ChatGPT与国产大模型的表现。实验结果表明，GPT-4在解答中文小学数学题方面表现较好，但与人类相比仍存在差距。此外，即使面对中文试题，国产大模型与OpenAI的产品之间差距显著，这也提示我们在提升国产大模型的研究与应用方面仍需加把劲。