今日arXiv最热NLP大模型论文：北京大学警惕ChatGPT等大模型遏制人类的创新能力

导语： 本文通过实验和追踪调查，探讨了ChatGPT在有无情况下对创新能力的影响。研究发现，虽然ChatGPT能够提升人类的创新表现，但一旦停止使用，创新性便会迅速回归基线。更为重要的是，使用ChatGPT可能导致内容同质化，而这一影响在不使用ChatGPT之后仍会持续。因此，我们在将生成型AI融入创新活动时需保持谨慎，因其可能在短期内增强创新性，但从长远来看却可能限制人类的创造能力。

引言： ChatGPT对人类创造力的短期提升
人工智能技术的快速发展正在深刻转变我们的工作和生活方式，尤其是在创意产业中，其影响尤为显著。像ChatGPT这样的AI工具在编程、创意写作等领域表现卓越，有时甚至超越人类。然而，这场技术革命也带来了一些争议。虽然AI作为研究的有力工具能提升人类在创意任务上的表现，但专家们对由此可能引发的内容一致性、创新多样性降低，以及对人类创造力长远影响的忧虑不断上升。这一技术的双刃剑效应，使我们在充分利用AI优势的同时，需警惕其潜在风险。

本文通过为期七天的实验室研究和随后的30天追踪调查，深入探讨了ChatGPT的使用及其对持续创造力的影响。结果显示，ChatGPT能够在短期内显著增强创造力，但一旦停止使用，人类的创造力便会退回至基线水平。

更为关键的是，研究发现使用ChatGPT进行创意任务会导致内容逐步同质化，而这种同质化效应在停止使用ChatGPT之后依然存在。这一发现对普遍观点提出了质疑——认为ChatGPT能够长期增强人类创造力，实际上揭示了生成性AI如ChatGPT虽在短期内提升创造性表现，但从长远来看可能限制人类创造力的发展，强调在创意活动中谨慎运用生成性AI的重要性。

声明： 本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经过人工审核和配图后发布。

智能体传送门： 赛博马良

神奇口令： 小瑶读者（前100位有效）

论文基本信息

论文标题： When ChatGPT is gone: Creativity reverts and homogeneity persists
论文链接： 查看论文

实验设计： 一周对比实验与30天后追踪实验
参与者分组与任务介绍
为了完成实验，研究人员招募了61名大学生，随机分为两个组：使用ChatGPT的实验组（31人）和未使用ChatGPT的对照组（30人）。在为期一周的实验期间，参与者每日需完成两项创意任务：一项为3分钟限时的低复杂度替代用途测试（Alternative Uses Test, AUT），另一项为无时间限制的高复杂度任务，即为企业产品设计创新功能及解决方案。实验的第一天和最后一天，所有参与者需在无ChatGPT辅助的情况下完成相同任务，以评估ChatGPT使用对创造力表现的长期影响。

创造力评估方法
为了全面评估ChatGPT对创造力的影响，研究人员采用了两种任务来测量参与者的发散思维和收敛思维。在AUT中，参与者需在限时内列出日常物品的创意用途。两名实验者对文本内容进行编码，提取独立创意想法。在问题解决任务中，所有答案均予以保留，采用共识评估技术（Consensual Assessment Technique, CAT）进行评分。评价者独立评估每个想法的新颖性与实用性，并对灵活性进行主观评价。此外，参与者在AUT中选择最具创造性的想法，并计算其自我识别的准确性。在问题解决任务中，另外两名经验丰富的评价者独立评估回答的创意、内容质量、公众受欢迎程度及市场成功潜力。

实验结果：ChatGPT对创造力的影响
ChatGPT对短期创造力的提升
参与实验的61名大学生被随机分为两组，一组在完成创造性任务时使用ChatGPT，另一组则独立完成。结果表明，使用ChatGPT的组别在AUT和高复杂度产品功能创新任务中展现出较高的创新性、实用性和灵活性，表明ChatGPT能够在短期内显著提升人类在创造性任务中的表现。

ChatGPT撤离后创造力的回落
从实验结果可以看出，对于发散思维（任务1）和收敛思维（任务2）的T检验结果，使用ChatGPT的组别在实验的第1天至第7天在多个维度上表现出显著的提升。此外，ChatGPT组在新颖性、实用性、灵活性、创造力、写作质量、受欢迎程度和成功潜力等方面的得分普遍高于对照组。然而，在第30天未使用ChatGPT的情况下，这些差异迅速消失，表现回落至与对照组相似的水平，表明ChatGPT提供的创造力增强效果是暂时性的。

知识同质化问题：ChatGPT对创意多样性的影响
研究人员还想了解在ChatGPT的帮助下，参与者是否生成了虽然看似更具创意但实际上缺乏多样性的答案。

文本语义相似度的计算方法
为评估ChatGPT使用对知识同质化的影响，研究者利用Sentence-BERT（SBERT）模型，计算文本的语义相似度。SBERT是BERT模型的改进版本，能够编码整个句子，并提供丰富的语义表示。通过训练SBERT模型并使用它对创造性文本进行编码，研究者得以计算文本之间的余弦相似度，从而确定它们的语义相似性。此外，研究还采用改进的字符串匹配技术来计算文本之间的冗余度，识别两个答案中的相同字符串序列，从而确定创造性文本之间的“字面”相似性，这是一种在学术界广泛用于检测论文抄袭的方法。

ChatGPT使用导致的知识同质化
通过减少数据维度并运用UMAP算法，研究人员将数据语义的嵌入特征压缩至二维表示，以便更清晰地展示实验组和对照组之间的创造性差异。结果显示，实验组相较于对照组在标准差特征值和椭圆区域上表现出小的数值，这一趋势在实验第7天和第30天均持续存在。

所有参与者在实验第一天的回答显示出较高的异质性，然而当一些参与者开始使用ChatGPT生成答案时，知识多样性则开始下降，且在1个月后（不再使用ChatGPT的情况下）呈现出持续的下降趋势。在相同时间段内，未使用ChatGPT的对照组参与者并未表现出类似模式。这一结果表明，人类对ChatGPT的使用促进了知识同质化，即便在停止使用ChatGPT之后，这一同质化现象依然持续。尽管ChatGPT短期内有助于提升创造性表现，但从长远来看，可能会限制人类创造能力的多样性。

讨论：ChatGPT对长期创造力和创意多样性的影响
ChatGPT使用的长期影响
本文实验证实，一旦停用ChatGPT，人类的创造性表现迅速回落至基线水平。更为重要的是，使用ChatGPT进行创意任务将导致不可逆的内容同质化效应，这意味着即便不再使用ChatGPT，情况也不会得到改善，知识同质化会一直存在。若长此以往，人们在未来的创造性活动中更倾向于产生类似AI的响应，这将对科学研究和创新的多样性产生持久影响。

对科研创新多样性的潜在威胁
研究人员强调，ChatGPT对科研创新多样性的潜在威胁不可小觑。较高的同质性可能会导致科学界思想趋同，从而减少独特创新的涌现。如果科研人员在创新活动中不加以限制地使用如ChatGPT的生成性AI工具，可能对科学社区产生意想不到的、有害的后果。

小结与展望
AI在教育和专业培训中的角色
本研究为理解AI在提升创造力方面的作用提供了新视角。虽然ChatGPT带来的临时性创造力提升对依赖创意过程的领域至关重要，但看起来AI工具在培养长期创造性思维技能方面似乎存在一定限制。这一发现促使我们在教育及专业环境中重新审视AI的角色，特别是在以培养持久创新能力为主要目标的场景中，应采取平衡策略，既充分利用AI工具迅速解决创意挑战，又力求培养和维持长期的内在创造力。

实验局限性与未来研究方向
尽管本研究的实验提供了深刻的洞见，仍存在一定局限性。选择实验室环境和设计特定创造性任务虽能减少外部干扰，但可能缺乏对高复杂性任务的实地考察。此外，研究样本限于61名大学生，存在样本代表性问题。未来研究应考虑延长跟踪期，以更精确评估AI工具如ChatGPT对创造力及创新的长期影响。尽管理论上存在这些局限，本研究中获得的核心发现具有广泛适用性。后续研究需通过延长跟踪期，探究对ChatGPT的依赖对人类创造力的长期影响，以及这种依赖是否会随时间的推移而加重或减轻。

今日arXiv最热NLP大模型论文：北京大学警惕ChatGPT等大模型遏制人类的创新能力

相关文章