当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

ChatGPT作为一款智能人机对话应用,自推出以来迅速风靡全球。在短短一个月内,其用户数量便突破了一亿。人们利用ChatGPT测试了各种考试项目,包括SAT、AP、GRE等。然而,如果让ChatGPT参加中国的高考,会是怎样的情景?它会不会偏科?普通人是否能够超过ChatGPT的成绩?这都将在复旦大学和华东师大的同学们的评测中得以揭晓。

论文题目:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark

论文链接:
点击查看论文

如何让ChatGPT解答高考题?

该论文采用零监督prompt的方式,将试题转化为ChatGPT的输入。在不同学科和题型方面,设计了多种询问方式。例如,对于数学题,将公式转化为LaTeX输入。

高考数据集

本文测试采用2010至2022年间的全国A卷和全国B卷,共包含13年的试卷。每套试卷涵盖10门学科:语文、数学、英语、物理、化学、生物、历史、地理、政治。数学则分为理科数学与文科数学。

数据集中共包含2811道试题。具体题型在此不再展开,大家对高考题型应该都比较了解。

实验与分析

在评估过程中,上海市曹杨第二中学的高中老师参与了主观题的阅卷。

实验结果显示,ChatGPT在历年高考中取得的分数如下图所示。由于在计算分数时将每科成绩归一化到100分,因此这个分数无法与我们自己的高考成绩直接比较。不过可以看出,ChatGPT的表现并不理想,估计复旦或华东师大均难以通过高考,这其中的原因又是什么呢?

图中展示了ChatGPT在各学科及主客观题上的表现。蓝色代表客观题,黄色则为主观题。分析发现,ChatGPT在客观题中的表现较好,尤其在英语阅读理解、单选及完形填空中,分别达到了88.3%、78.1%和73.8%的准确率。然而,即便是客观题,理科数学的准确率也不到40%。数学的确是个挑战~

在主观题方面,ChatGPT的表现较差。物理、化学、生物和数学科目的主观题得分明显低于客观题。结合理科客观题得分也不理想,或许表明ChatGPT在文科领域更具优势。根据阅卷老师的评语,ChatGPT主要存在以下问题:

  1. 在数学问题中,复杂方程难以正确解决,并且在解题过程中使用了错误的公式。
  2. 阅读较长材料时的理解和概括能力不足。

总结

ChatGPT在训练时可能没有使用中国高考题的数据,因此其表现较为可信且不受潜在数据泄露的影响。

观察结果显示,与国外考试相比,ChatGPT在中国高考题方面的成绩略显不足。因此,国内学生暂时无需过于担忧无法超越ChatGPT。不过,文章提到,长文本概括能力在GPT-4-32K中已有显著改进,而国产大模型在中文数据上也进行了进一步优化,因此,我们可以期待未来大模型在高考题上的表现更加优异。

此外,使用ChatGPT解答高考题的思路,或许能够为网友们对各省考题难度的争论提供新的视角。

滚动至顶部