当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科！

ChatGPT作为一款智能人机对话应用，自推出以来迅速风靡全球。在短短一个月内，其用户数量便突破了一亿。人们利用ChatGPT测试了各种考试项目，包括SAT、AP、GRE等。然而，如果让ChatGPT参加中国的高考，会是怎样的情景？它会不会偏科？普通人是否能够超过ChatGPT的成绩？这都将在复旦大学和华东师大的同学们的评测中得以揭晓。

论文题目：
Evaluating the Performance of Large Language Models on GAOKAO Benchmark

论文链接：
点击查看论文

如何让ChatGPT解答高考题？

该论文采用零监督prompt的方式，将试题转化为ChatGPT的输入。在不同学科和题型方面，设计了多种询问方式。例如，对于数学题，将公式转化为LaTeX输入。

高考数据集

本文测试采用2010至2022年间的全国A卷和全国B卷，共包含13年的试卷。每套试卷涵盖10门学科：语文、数学、英语、物理、化学、生物、历史、地理、政治。数学则分为理科数学与文科数学。

数据集中共包含2811道试题。具体题型在此不再展开，大家对高考题型应该都比较了解。

实验与分析

在评估过程中，上海市曹杨第二中学的高中老师参与了主观题的阅卷。

实验结果显示，ChatGPT在历年高考中取得的分数如下图所示。由于在计算分数时将每科成绩归一化到100分，因此这个分数无法与我们自己的高考成绩直接比较。不过可以看出，ChatGPT的表现并不理想，估计复旦或华东师大均难以通过高考，这其中的原因又是什么呢？

图中展示了ChatGPT在各学科及主客观题上的表现。蓝色代表客观题，黄色则为主观题。分析发现，ChatGPT在客观题中的表现较好，尤其在英语阅读理解、单选及完形填空中，分别达到了88.3%、78.1%和73.8%的准确率。然而，即便是客观题，理科数学的准确率也不到40%。数学的确是个挑战~

在主观题方面，ChatGPT的表现较差。物理、化学、生物和数学科目的主观题得分明显低于客观题。结合理科客观题得分也不理想，或许表明ChatGPT在文科领域更具优势。根据阅卷老师的评语，ChatGPT主要存在以下问题：

在数学问题中，复杂方程难以正确解决，并且在解题过程中使用了错误的公式。
阅读较长材料时的理解和概括能力不足。

总结

ChatGPT在训练时可能没有使用中国高考题的数据，因此其表现较为可信且不受潜在数据泄露的影响。

观察结果显示，与国外考试相比，ChatGPT在中国高考题方面的成绩略显不足。因此，国内学生暂时无需过于担忧无法超越ChatGPT。不过，文章提到，长文本概括能力在GPT-4-32K中已有显著改进，而国产大模型在中文数据上也进行了进一步优化，因此，我们可以期待未来大模型在高考题上的表现更加优异。

此外，使用ChatGPT解答高考题的思路，或许能够为网友们对各省考题难度的争论提供新的视角。

当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科！

如何让ChatGPT解答高考题？

高考数据集

实验与分析

总结

相关文章