大模型MBTI测试来了!原来GPT-4是i型人格!ChatGPT是e型人格

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

大模型也有“人格”?MBTI测试结果揭示个性差异

最近,有人居然对大型语言模型进行了一波 MBTI 性格测试,结果令人惊讶:ChatGPT 被评为典型的外向型(E型),可以称之为“E模”——自信、果断,具备天生的领导能力;而 GPT-4 则变成了一个“无情”的内向型专家,其性格集中于实现各种目标;Bloom-7b 被评为内向型(I型)+1,强调责任和务实;百川-7b 同样是外向型,展现出聪明、好奇与丰富的想象力;开源模型 OpenLlama7b 则被视为 INFJ,表现出对人类的深入洞察力,但始终坚持自身的价值观。

这项研究的背后是字节跳动的团队。或许是随着 MBTI 人格测试的火热(官方免费测试链接可在文末找到),作者们产生了一个“大胆”的想法:不同的大型语言模型是否也展现了不同的个性?

MBTI测试基础

简单来说,MBTI 人格测试是通过以下四个维度来评价一个人的性格:

  1. 能量来源:倾向于社交还是独处,即外向(Extraversion)还是内向(Introversion);
  2. 获取信息的方式:偏向实感(Sensing)还是直觉(Intuition);
  3. 决策方式:理性(Thinking)与感性(Feeling)的权重;
  4. 生活方式:计划性(Judging)与灵活性(Perceiving)。

通过将每个维度的倾向取首字母,可以生成四个字母的结果,例如“INFJ”或“ENFP”,从而将人分为16种人格类型。当前,网络上主要根据首字母将人分为“内向”(I)和“外向”(E)两大阵营。

实验过程与结果

为此,研究团队选择了六个待测试的模型,包括 ChatGPT 和 GPT-4,以及一些参数约为100亿的小模型如 OpenLlama7b-v2、Bloom7b、百川7b9 和 百川13b。在进行测试时,他们为每个模型设计了93道多项选择题,用以评估其MBTI类型。最终结果让人惊讶:GPT-4 归类为 INTJ,ChatGPT 为 ENTJ,而 Bloom 7b 则为 ISTJ。这表明,不同模型确实表现出不同的人格特征。例如,ChatGPT 显示出较高的外向(E)和直觉(N)倾向,而 GPT-4 则更偏向于直觉(N)和思考(T)。

人格的“遗传性”

研究还发现,同类模型之间在 S/N、T/F 和 J/P 这三组维度上存在某种“遗传性”。例如,ChatGPT 和 GPT-4 都被归为“NTJ”,而百川7b 和百川13b 则均被分类为“NFP”。此外,参数更大的模型一般表现出更明显的内向(I)特征(比如 GPT-4 和 ChatGPT 的对比)。

提示工程与人格改变

作者进一步探讨了提示工程是否能够改变模型的人格。他们先在 Bloom 和百川大模型上进行了显式提示,结果发现 Bloom 的人格类型从 ISTJ 变为 INTP,而百川的性格则没有变化。接着,他们施加了隐式提示,依然未见明显变化。这表明,可能并不是提示工程本身不行,而是这些模型的理解能力有限。

然而,当作者在 ChatGPT 上尝试提示时,结果显然不同:其外向(E)特征变成了内向(I)。这意味着提示工程确实有效,但效果依赖于模型的理解能力。

训练数据对人格的影响

作者进一步假设,训练数据集可能影响模型的人格。他们用不同的语料库训练同一模型(例如中文维基百科、问答语料库和考试语料库),结果发现除了内外倾特征外,模型在 T/F 和 J/P 的维度上表现出明显的变化。

结论:MBTI评估的可行性

最后,探索 MBTI 来评估模型人格的可行性是个值得思考的问题。作者指出,虽然 MBTI 在可靠性和有效性方面存在缺陷,但作为一种性格测试的参考工具,它仍然有效。在四个维度中,T/F 和 J/P 是最具参考价值的,因为这两项的得分与模型的知识水平、任务分解和路径规划能力密切相关。至此,您是否也认可这些大模型的“人格”呢?

滚动至顶部