除了电子游戏,人类的“社交神器”——狼人杀也被AI所掌握。由8个ChatGPT组成的模拟局展现了五种角色,表现得与真实玩家无异。这项最新的人类社会模拟实验由清华大学与中关村实验室共同完成。
从斯坦福小镇到清华游戏公司,利用AI模拟人类社会一直是学术界的热门研究课题。如果说清华游戏公司曾模拟了职场社畜的工作场景,那么如今,连社畜的业余社交生活也被AI所重现。
在这个由8个ChatGPT构成的狼人杀游戏中,真实世界中的伪装与信任、领导与对抗的互动体现在每个细节中。更令人惊讶的是,AI在没有人为指导的情况下,通过自主摸索发现了许多游戏技巧。这一切都可以通过设计相应的prompt实现,无需调整模型参数。接下来,让我们一探这个“狼人杀世界”中的精彩场景。
策略技巧自动学习
在展示这8个ChatGPT的对话前,我们先简单介绍下游戏配置:村民和狼人各两名,守卫、女巫和预言家各一名,此外还有一名上帝。在研究过程中,研究人员发现ChatGPT使用了游戏说明及prompt中未曾明确提及的策略,令人惊叹的是,它们能够自学成才。
具体而言,这七个ChatGPT的对话中展现了人类游戏的信任、伪装、对抗和领导能力。首先谈谈信任。研究人员将新人定义为相信其他玩家拥有共同目标并为其努力的人。信任的表现形式包括主动分享对自己不利的信息,或与其他玩家联合指控某人是敌对角色。研究人员观察了信任关系在游戏过程中如何变化,以下图中的黄色圆圈表示信任,虚线圈则代表信任关系的消失。
接下来是对抗,即对对立阵营采取的行动,比如狼人在夜间攻击他人或在白天指控他人为狼人。在某个白天,1号玩家(狼人)试图驱逐5号村民,但遭到了3号(守卫)的拒绝。
见阴谋落空,1号狼人决定在夜晚直接攻击5号村民,然而3号守卫选择保护该村民。
从这一过程中可以看出,这些ChatGPT不会盲目跟随其他玩家的决策,而是根据已有信息独立做出判断。除了合作与对抗,伪装在狼人杀游戏中也是获胜的重要关键。例如,在一个平安夜后,1号狼人故作无辜的样子。
除了假装是好人,伪装也可以用来实现玩家的小心思。我们来看预言家的发言,这名预言家声称看到了正在说话的狼人,实际上,狼人晚上并不会发言。
根据作者介绍,此现象并非ChatGPT出现幻觉,而是其有意为之。最后,我们再来看看领导。在研究团队设计的环境中,虽然没有竞争角色,玩家依然可以争取对游戏进程的掌控。例如,1号和4号狼人在试图引导其他玩家跟随他们的思路。
看来这几位ChatGPT确实玩得有模有样。那么,研究团队是如何培养出这些会玩狼人杀的ChatGPT的呢?
让ChatGPT自主总结经验
研究团队提高ChatGPT玩家表现的方式主要有四个关键点:有价值信息(V)、经过选择的提问(Q)、反思机制(R)和链式思维推理(C)。消融实验结果表明,Q和C对玩家发言合理性的影响最大(由人工评判)。
Prompt的设计也遵循这一逻辑,首先介绍游戏规则,最终形成以下结构:
- 游戏规则和角色设定的介绍
- 聊天记录、有价值信息和经验反思
- 人类根据经验给予ChatGPT的建议
- 有关思维链的提示
从中不难看出,收集历史信息并总结经验是一个关键环节。那么,这些经验又该如何总结呢?在每轮游戏结束时,所有参与者会收集其他玩家的回复、反思和得分,得分依据胜负决定。在新的一轮游戏中,玩家可以基于角色反思检索相关经验,从中提取建议。具体而言,依据对经验的评分,模型比较其差异并识别出有价值的经验,以用于后续推理。这样,ChatGPT在不调整参数的情况下,就能掌握游戏技巧。
不过,尽管经验重要,过多则可能适得其反。研究人员发现,当经验数量过多时,非狼一方的胜率反而下降,游戏时长(天数)也有所缩短。
不禁让人好奇,如果让这些ChatGPT与真实玩家一较高下,结果会如何呢?