ChatGPT自发布以来,已成为众多用户的得力助手,尤其是学生和职场人士,几乎每天都离不开它。然而,近期 ChatGPT 却在某项研究中意外变成了“帮凶”,一位研究人员利用 ChatGPT 创建了一个虚假的数据集,以支持一些不明的科学假设。
背景介绍
在11月9日发表于《美国医学会眼科杂志》上的一篇论文中,作者使用GPT-4与高级数据分析(ADA)相结合,通过Python进行统计分析和数据可视化。研究表明,AI生成的数据比较了两种外科手术方法的效果,并错误地声称其中一种治疗方法优于另一种。
该研究的合著者指出,可以在短短几分钟内创建出不依赖于真实数据的数据集,即使这些数据与现有证据相悖。这种生成可信数据的能力,让研究人员和期刊编辑对研究的诚信产生了更多忧虑。身为微生物学家的独立研究诚信顾问Elisabeth Bik表示:
“生成式AI之前可以用于生成无法通过抄袭软件检测的文本,但能够创建虚假且逼真的数据集却是一个更为棘手的担忧。这意味着,任何研究人员或团队都可以轻易地生成虚假的患者测量数据、问卷调查的虚假答案,或是大量的动物实验数据集。”
生成虚假数据的细节
在研究中,作者要求GPT-4 ADA创建一个针对患有角膜圆锥症人群的数据集。该病会导致角膜变薄,进而可能造成视力模糊。大约15-20%的患者会进行两种手术之一来治疗。
第一种方法是穿透性角膜移植术(PK),这种手术将所有受损的角膜层移除,并用健康供体组织替换。第二种手术是深前层角膜移植术(DALK),只替换角膜的前层,而保持内部层的完整。
研究作者指出,大语言模型捏造了数据,支撑了DALK比PK手术效果更佳的结论。为此,他们请求模型对角膜形态评估和不规则性检测的成像测试结果进行统计比较,以及参试者术前术后的视力改善情况。
AI生成的数据包括160名男性和140名女性参与者,结果显示接受DALK手术的患者在视力和成像测试方面的表现均优于接受PK手术的患者,这一发现与真实的临床试验结果相悖。在2010年一项涉及77名参与者的试点研究中,DALK与PK手术在术后两年的结果相似。
来自英国曼彻斯特大学的生物统计学家杰克·威尔金森表示:“表面上,看起来创建一个合理的数据集相当容易。如果是未经训练的人,可能会认为这是一个真实的数据集。”
检测伪造数据的方法及结果
威尔金森对如何检测伪造数据产生了兴趣,曾检查过早期版本的大语言模型生成的数据集。他指出,这些数据集经过仔细审查时,常常缺乏令人信服的要素,因为它们难以反映变量之间的真实关系。
应《Nature》团队的要求,威尔金森和他的同事使用了一种旨在检查真实性的筛选协议来评估这个伪造的数据集。检查结果揭示,许多“参与者”的性别与他们的名字所暗示的性别不匹配。此外,术前和术后的视力能力测量以及眼部成像测试之间没有发现相关性。威尔金森还分析了数据集中某些列中数字的分布,以查找潜在的非随机模式。虽然眼部成像数值通过了这一测试,但一些参与者的年龄值呈现出一种在真实数据集中不常见的特征:许多参与者的年龄以7或8结尾。
研究的作者承认他们的数据集确实存在缺陷,这些缺陷在仔细审查下可能显露无遗。然而,快速浏览数据集时,确实难以辨别出这些数据的非人类特征。
《EMBO Reports》的主编也对此表示担忧:“实际上,同行评审往往并未进行全面的数据重新分析,因此很难通过AI发现精心制作的违规行为。期刊需要更新质量检查,以识别由AI生成的合成数据。”
最后,尽管AI可能是问题的源头,但也可能成为解决方案的关键。我们需要用AI的力量来打击AI所带来的问题。