搞不定高考的ChatGPT,原来只有小学4年级水平

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

小学数学测试:ChatGPT与国产大模型的表现分析

此前,复旦大学的研究者让ChatGPT参加中国高考,结果显得惨不忍睹——特别是在理科数学这一科目,竟只得了二十多分(参见推送)。最近,小米AI Lab的研究者们决定降低测试难度,针对1700道中国小学数学题进行了实验,并测试了10个大语言模型。实验结果显示,ChatGPT的表现仅能达到小学四年级水平,而GPT-4则能够完成小学毕业的测试。同时,国产大模型如Baichuan、MOSS、ChatGLM2等的表现相对较差。让我们深入了解一下这个实验。

论文题目

CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

论文链接

点击查看论文

数据集

此次实验使用的小学数学题数据集CMATH来源于开源的小学练习册和考卷。每道题目都标注了年级(Grade)、推理步数(#Steps)和最大有效数字位数(#Digits),以此来评估难度。

实验结果

在实验设置上,研究者采用了零监督的方式,没有使用链式思维(CoT)等技巧,旨在最原生态地评估大模型的表现。不过,这种方式也可能导致模型的表现偏低。

针对不同年级的题目,实验结果显示,GPT-4在所有年级的测试中均超过了60分的及格线,而ChatGPT仅能达到四年级的及格水平。在国产大模型方面,只有ChatGLM2和Ziya-LLaMA-13B勉强达到了二年级的及格水平,其它模型在一年级的题目中也难以获得50分以上的成绩。

但即便是表现最好的GPT-4,与大家小学时的成绩相比,仍然有一定差距。

不同推理步骤和计算位数的表现

在对不同推理步骤和数字位数问题的表现进行观察时,结果显示:当推理步数或数字位数增加时,国产大模型的表现明显下滑。

研究者们还尝试增加干扰条件(Distractors)来测试大模型的鲁棒性。

实验结果显示,GPT-4表现出较强的抗干扰能力,而其他大模型在这方面的表现则显得相对薄弱。

总结

本研究通过测试中国小学数学题评估了GPT-4、ChatGPT与国产大模型的表现。实验结果表明,GPT-4在解答中文小学数学题方面表现较好,但与人类相比仍存在差距。此外,即使面对中文试题,国产大模型与OpenAI的产品之间差距显著,这也提示我们在提升国产大模型的研究与应用方面仍需加把劲。

滚动至顶部