ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

在 OpenAI 发布的《GPT-4 Technical Report》中,有一部分内容特别引人注目,那就是 GPT-4 在教育领域的卓越表现。通过评估 GPT-4 在美国 AP 课程及考试中的表现,评估其在多个学科中的能力,结果显示 GPT-4 在许多课程上的成绩令人印象深刻,特别是在 GPT-3.5 表现较差的化学、宏观经济、物理和统计学科中,GPT-4 取得了显著的提升。

然而,如果仔细分析上述数据,可以发现 GPT-4 在 AP 英国文学课程中的表现并不理想。这对于一个学习了大量语料知识的语言模型来说,确实令人感到困惑。当然,这里面也涉及评估标准的问题。对于自由写作的作品,OpenAI 并没有公开其评估标准,缺乏此类细化的评估,导致很难直接下结论认为 GPT-4 不擅长于英国文学。

鉴于这一情况,来自德国帕绍大学的研究者们组织了一项详细的评估,主题为“大模型是否能够撰写优秀的议论文?”他们构建了一个基于内容和语言掌握程度的评分标准,并邀请了 111 位一线高中教师对大模型生成的论文进行评分。这项研究发现,大模型在作者设定的评分标准中,其得分普遍高于德国高中生撰写的议论文。但另一方面,人类写作与 AI 写作在风格上存在明显差异:人类更倾向于在议论文中表达个人的态度和认知结构,而 AI 则更偏向于使用复杂、科学化的语言结构(名词化结构)进行论证。此外,GPT-4 在语言多样性方面也有显著提升,其丰富度已显著超过人类,而 GPT-3.5 仍显著低于人类。

论文题目为:
AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays

论文链接:
点击这里查看论文

本论文核心目的是希望解决以下三个问题:

  1. 基于 GPT-3.5 和 GPT-4 的大模型在撰写议论文时表现如何?
  2. 大模型生成的文章与人类撰写的文章相比如何?
  3. 大模型写作与人类写作相比,究竟存在哪些独特的语言特征?

为了解答这三个问题,论文设计并实施了一套完整的评估流程。作者从一个议论文语料库(essayforum)中选取主题。essayforum 是一个活跃的文本写作社区,拥有大量高中生用户,许多非母语的高中生经常在此获取作文反馈。该社区包含90个主题,涵盖“学生应该被教育去竞争还是合作?”到“报纸在未来会被取代吗?”等多个话题。每个主题都有一篇由人类撰写的文章可供讨论,平均包含19个句子,约400个单词。通过设定不同的主题,研究者设置了 Prompt,要求 GPT-3.5 和 GPT-4 针对“在【主题】上写一篇约200字的文章”进行创作。

在获得 AI 的写作后,研究团队为评分者(高中老师)开展了关于 ChatGPT 基础知识的培训讲座,参与教师的主要学科包括语言(英语、法语和德语)、宗教、伦理和科学等。在两个小时的讲座及四十五分钟的讨论后,教师们收到了包含七个评估标准的评分问卷,标准为:

  • 主题完整性
  • 逻辑
  • 表达
  • 语言掌握程度
  • 深度(复杂度)
  • 流畅程度
  • 语言结构

每项指标由专家打分,分值范围从0到6,其中0分为最低,6分为最高。参与者会评估六篇随机选择的文章,评估结果将提交系统供论文作者统计。

为了将 AI 生成的文章与学生写作进行比较,论文考虑了词汇多样性、句法复杂性、名词化构造、情态动词、认知标记和话语标记六类语言特征,并使用计算语言学的方法进行统计分析。在词汇多样性方面,论文采用了文本词汇多样性度量(MTLD)来评估词汇的丰富程度;在句法复杂性方面,量测句子依存树的最大深度和从属从句结构;名词化方面统计了带有后缀如“-ion”、“-ment”、“-ance”的动词转化为名词的出现次数;情态动词与认知标记方面使用词性标注进行统计;而话语标记用 PDTB 的话语标记序列对“like”、“for”、“in”等进行分析。

最终的整体评分图表显示,几乎所有评估指标中,学生撰写的文章得分最低,GPT-3.5 居中,GPT-4 评分最高。小提琴图进一步直观展示了各个写作水平的对比。

从计算语言学层面的统计指标分析中,发现人类撰写的文章与 ChatGPT 撰写的文章之间存在显著差异。尽管在表达能力和复杂性方面,人类与大模型之间的差距最小,但语言掌握能力的差异显著大于其他所有差异。这一观察结合了大多数写作样本来自非母语高中生,表明差异主要源于语言技能的熟练程度。另外,AI 更倾向于使用名词化的结构构建复杂句子,而人类则更倾向于使用情态动词与认知标记。人类的词汇多样性高于 GPT-3.5,但低于 GPT-4。

除了模型与学生写作之间的比较,模型之间的比较也揭示了模型进步的方向。尽管 GPT-4 在几乎所有指标上都优于 GPT-3.5,但只有逻辑、词汇、文本链接与复杂度这几个方面的差异显著,即 GPT-4 相较于 GPT-3.5 的实质性提升主要体现在这四个方面。

在某种程度上,这篇论文证实了人们对 AI 在教育应用中所持的诸多担忧并非空穴来风。AI 在高质量议论文写作方面的能力预示着未来教育的一项根本性变革,或许我们需要重新定义“作业”这一概念。换句话说,当我们希望学生练习写作时,应思考他们通过完成这样的写作(如国内的高考作文题)能获得何种能力,而不仅仅是基于网格纸上所写文字给出一个四五十分的分数。

事实上,GPT-4 的写作能力对语言教学的影响类似于计算器对数学教学的意义。对于教育工作者而言,GPT-4 的出现应当促使教师和学生一同反思课程教学的本质,以及如何恰当使用这些工具。AI 能够完成课程作业并不与教学目标本身相矛盾,尽管在短期内可能需要调整教学目标,例如此前一些高校禁止使用 ChatGPT 的消息。但归根结底,计算并非数学的本质,议论文写作也并非写作的所有,写作能力的培养与写作工具的使用并不矛盾。真正需要转变的,始终应该是教育理念和教育方法。

滚动至顶部