随着 ChatGPT 的流行,其用途也愈加多样化。有的人将其用于寻求生活建议,有的人则把它当作搜索引擎使用,甚至有人尝试用其撰写论文。然而,写论文的做法并不被允许。美国一些大学已明确禁止学生使用 ChatGPT 完成作业,并开发了一系列软件来判断学生提交的论文是否由 GPT 生成。这就出现了一个问题:有些学生的论文本身就写得很糟,结果被 AI 判断为同行的作品。而更有趣的是,研究显示,中国学生所写的英文论文被判定为 AI 生成的概率高达 61%。
这究竟意味着什么?令人不禁感到愤懑!
非母语者的遭遇
尽管生成式语言模型的迅猛发展确实为数字交流带来了巨大的进步,但其滥用问题不容忽视。虽然研究人员已经提出了多种检测方法以区分 AI 和人类生成的内容,但这些方法的公平性与稳定性仍有待提高。为此,研究人员评估了几种广泛使用的 GPT 检测器在识别母语为英语和非母语者的作品时的表现。研究结果显示,这些检测器总是错误地将非母语者写作的样本判定为 AI 生成,而母语者的写作样本则基本能够被准确识别。此外,研究人员还证明,通过一些简单的策略可以减轻这种偏见,甚至有效地绕过 GPT 检测器。这说明什么?这表明,GPT 检测器似乎对语言表达能力较差的作者持有成见,令人感到愤怒。让人不禁联想到那款判断 AI 还是人类的游戏,如果你猜对面是真人而系统判定为 AI,系统会提示你:“对方可能会觉得你冒犯了。”
复杂性与 AI 生成的误判
为了研究这一现象,研究人员从一个中国的教育论坛收集了 91 篇托福作文,并从美国 Hewlett 基金会的数据集中挑选了 88 篇美国八年级学生的作文,以检测七个广泛使用的 GPT 检测器。
图表中的百分比表示“误判”的比例,即真实是由人类写的,但检测软件判断为 AI 生成的。结果显示,美国八年级学生的作文被误判的概率最高为 12%,而中国论坛上托福作文的误判率则普遍超过 50%,甚至有的高达 76%。在 91 篇托福作文中,18 篇被所有七个检测器一致认为是 AI 生成的,而其中 89 篇至少被一个检测器误判。
更进一步,从数据中可以看出,被所有七个检测器误判的托福作文在复杂性上明显低于其他作品。这进一步印证了前面的结论——GPT 检测器对语言表达能力不足的作者存在一定偏见。因此,研究人员认为,GPT 检测器应更多地考虑非母语者的写作样本,样本的多样性有助于消除这种偏见。接下来,研究人员将非母语者的托福作文放入 ChatGPT 中,丰富语言,模仿母语者的用词习惯。与此同时,他们还对照组采用了美国八年级学生的作文,简化语言,模仿非母语者的写作特点。最新的判定结果如下:
改善语言多样性
通过语言的润色,托福作文的误判率显著下降,低至 3%,最高不过 19%。而八年级学生的作文误判率则显著上升,甚至有一款检测器的误判率高达 99%。这一切说明,文章的复杂性确实是导致误判的重要因素。
研究人员随即得出结论,非母语者的写作因其表达不够地道、复杂度较低,容易被错误判定为 AI 所生成的。这引发了一个技术性问题,同时也是一个价值性问题:以复杂性作为判断 AI 或人类作者的标准,是否合理、全面且严谨?这样的判定显然不够公正,非母语者因其语言能力不足而处于劣势。
AI润色与影响
研究者认为,增强语言多样性不仅能减轻对非母语者的偏见,还能让 GPT 生成的内容轻松绕过检测器。为验证这一观点,研究人员选取了 2022-2023 年美国大学申请的入学论文题目,共生成了 31 篇假论文。最开始,GPT 检测器的表现还相当出色,但在后续的检测中却出现了下降。这是因为,在第二轮中,研究人员对这些论文进行了润色,使用了更具文学性的语言来提升文本质量。结果,检测器的准确度从 100%骤降至 0%。
与此同时,研究人员还使用了斯坦福大学 145 个期末项目报告的题目,以生成摘要。经过润色后的摘要检测准确性继续下降。研究者再次得出结论,润色过的文章更容易被误判为 AI 生成的,且经过两轮处理比仅做一次处理的论文更易受误判。
结论
总体而言,现存的各种 GPT 检测器似乎仍未能有效辨别 AI 生成与人类创作之间的本质差异。人类的写作水平差异巨大,单靠文章的复杂度来进行判断实在不够合理。此外,抛开偏见因素来看,检测技术本身亟待进一步改进。