图灵测试作为评估机器思维能力的一种方式,自1950年由图灵提出以来,一直存在争议。这个模仿游戏的设定包括人类和人工智能(AI)参与者,AI试图通过纯文本界面使提问者相信它是人类。
自那时以来,图灵测试引发了激烈争论,人们探讨它究竟衡量什么以及哪些系统有可能通过这一测试。尽管现如今的大型语言模型(LLM)似乎非常适合接受图灵测试,但它们是否真的能通过这一测试尚无明确答案。
在本文中,作者通过在线公开的图灵测试将GPT-4和其他智能体与人类进行了比较,以实证研究的方式探讨这一问题。实验结果表明:
- 在41%的测试中,表现最优秀的GPT-4借助提示通过了测试,超越了ELIZA和GPT-3.5的基准,但距离人类参与者的水平仍有差距。
- 参与者的判断主要基于语言风格和社交情感特征,这支持了智能体未必能通过图灵测试的观点。
- 参与者的人口统计特征(包括教育背景以及对LLM的了解程度)未能预测检测率,表明即便是深入了解系统并经常互动的人也可能被误导。
尽管图灵测试存在一些局限性,但仍可被视作评估自然语言交互和欺骗的重要标准。此外,考虑到能够冒充人类的AI模型可能对社会产生广泛影响,作者还分析了不同策略以及判断模型是否与人类相似的标准的有效性。
论文题目:
Does GPT-4 Pass the Turing Test?
论文链接:
图灵测试的意义
图灵认为游戏的开放性(审问者可询问任何问题,从浪漫到数学)构成了一项广泛且具有挑战性的智力测试。由于大型语言模型(LLM)能够生成流畅的自然文本,并在多种语言任务上接近人类表现,因此看起来非常适合进行图灵测试。
然而,激烈的讨论表明图灵测试并不能确证机器具备真正智能,它最多只能提供一种概率性的支持或反对的证据,因为仍存在许多限制。即便如此,图灵测试依然具有重要意义。
首先,它帮助我们评估机器能否成功欺骗人类,令人误以为它们是真正的人类。这种能力对社会影响深远,包括自动化客户服务、虚假信息传播、AI模型的欺骗行为,以及人们对与真实人类互动的信任问题。
其次,图灵测试为研究人类相似性提供了框架。它不仅评估机器,还探讨人类参与者的文化、伦理和心理假设。通过分析参与者的策略与思考,我们可以更深入地理解人们认为哪些特质构成人类,以及哪些特质难以被模仿。
方法
AI参与者
作者以双人图灵测试的形式进行实验,审问者向单个参与者提问,以判断其为人类或AI。与图灵的原始三人制公式不同,此设计避免了每场测试需要多名真实人类参与的问题。
作者创建了25个LLM参与者进行实验,这些参与者通过OpenAI API回应用户提问。每个参与者由模型(GPT-3.5或GPT-4)、温度参数(0.2、0.5或1.0)和提示区分。提示指导参与者在互动中的响应方式。
界面
聊天界面被设计成类似于传统消息应用,审问者的消息显示在对话框的右侧绿色区域。对话框底部包括审问者的最终判定、置信度、判定原因,以及参与者的真实身份。
流程
在研究中,人类玩家进入等待室,并随机分配到与真正的人类或AI的对战中。为了减少等待时间,AI游戏的等待时间设置为与前五场人类比赛的平均等待时间相同。如果在规定时间内无法找到人类对手,玩家则被匹配至与AI的比赛。
在进行人类比赛时,两名玩家分别担任审问者和参与者的角色,参与者需要让审问者相信他们是真正的人类,审问者则负责判断并与AI模型进行对抗。
实验结果
成功率
成功率(SR)定义为审问者认为参与者为人类的比赛比例。实验结果显示,人类参与者的成功率为63%,而表现最佳的GPT-4提示(Sierra)成功率为41%。不同提示的表现差异显著。
在与AI的比赛中,审问者的置信度较为准确,但在与真实人类参与者的比赛中,这种置信度与准确性之间没有明显关联。同时,由于样本算法倾向于选择表现更好的模型,样本较少的模型可能结果较低,结果的可靠性需谨慎对待。
审问者的人口统计特征
尽管作者研究了审问者的年龄、性别、教育水平等人口统计特征,但研究结果显示,这些因素对审问者辨别真人与AI的准确性影响不大,且任务经验未提高参与者表现。
作者还分类了审问者在300场评估中采用的策略,发现闲聊和知识推理是最常用的方式。值得注意的是,更有经验的审问者倾向于考察参与者的知识和观点,而而新手倾向于使用情感策略。
决策原因
审问者在判断AI参与者时,常提到的原因包括语言风格、社交与情感、知识和内容等。研究显示,审问者对AI的判断常与其语言的非正式性、结构重复性以及对敏感话题的回避相联。
讨论
- GPT-4是否通过了图灵测试?
根据研究,某些GPT-4参与者的表现超越了图灵的20年预期。然而,30%的误识率是否足够好仍有待商榷。更高的误识率可能反映审问者在识别模型和人类之间的难度。 - GPT-4能否通过图灵测试?
研究表明,提供更好的提示可能会提高AI的表现,与之前的研究发现相似,这可能反映当前大型语言模型的性能水平。 - 审问者的人口统计特征并未显著影响辨别准确性,或许与样本选择偏见有关。
- 策略
一些审问者使用非英语语言进行对话,效果显著。部分审问者则直接询问参与者是否为AI,这一策略同样有效。参与者的努力试图表现得像人类,反而引起了审问者的怀疑。
总结
这项研究深入探讨了人类与AI之间的复杂交互。尽管图灵测试并不是完美的智能衡量标准,但它为我们理解智能体的社交互动提供了框架。实验结果表明,传统基于规则的AI系统(如ELIZA)在特定情况下的成功表现超出预期,而人类参与者被正确判断为人类的概率为63%。
AI在语言风格和社交情感等方面仍面临挑战,这些因素可能比传统智能性概念更为关键,直接影响AI模仿人类互动的能力。
最后,本文承认存在局限性,例如参与者样本缺乏代表性和激励机制对结果的影响。因此,虽然本文提供了一些见解,未来仍需更多研究以全面理解智能体及其社交互动的本质。这不仅与图灵测试相关,我们需要探索多样化的智能性衡量标准,以确保AI技术的应用造福人类社会。