大模型MBTI测试来了！原来GPT-4是i型人格！ChatGPT是e型人格

大模型也有“人格”？MBTI测试结果揭示个性差异

最近，有人居然对大型语言模型进行了一波 MBTI 性格测试，结果令人惊讶：ChatGPT 被评为典型的外向型（E型），可以称之为“E模”——自信、果断，具备天生的领导能力；而 GPT-4 则变成了一个“无情”的内向型专家，其性格集中于实现各种目标；Bloom-7b 被评为内向型（I型）+1，强调责任和务实；百川-7b 同样是外向型，展现出聪明、好奇与丰富的想象力；开源模型 OpenLlama7b 则被视为 INFJ，表现出对人类的深入洞察力，但始终坚持自身的价值观。

这项研究的背后是字节跳动的团队。或许是随着 MBTI 人格测试的火热（官方免费测试链接可在文末找到），作者们产生了一个“大胆”的想法：不同的大型语言模型是否也展现了不同的个性？

MBTI测试基础

简单来说，MBTI 人格测试是通过以下四个维度来评价一个人的性格：

能量来源：倾向于社交还是独处，即外向（Extraversion）还是内向（Introversion）；
获取信息的方式：偏向实感（Sensing）还是直觉（Intuition）；
决策方式：理性（Thinking）与感性（Feeling）的权重；
生活方式：计划性（Judging）与灵活性（Perceiving）。

通过将每个维度的倾向取首字母，可以生成四个字母的结果，例如“INFJ”或“ENFP”，从而将人分为16种人格类型。当前，网络上主要根据首字母将人分为“内向”（I）和“外向”（E）两大阵营。

实验过程与结果

为此，研究团队选择了六个待测试的模型，包括 ChatGPT 和 GPT-4，以及一些参数约为100亿的小模型如 OpenLlama7b-v2、Bloom7b、百川7b9 和百川13b。在进行测试时，他们为每个模型设计了93道多项选择题，用以评估其MBTI类型。最终结果让人惊讶：GPT-4 归类为 INTJ，ChatGPT 为 ENTJ，而 Bloom 7b 则为 ISTJ。这表明，不同模型确实表现出不同的人格特征。例如，ChatGPT 显示出较高的外向（E）和直觉（N）倾向，而 GPT-4 则更偏向于直觉（N）和思考（T）。

人格的“遗传性”

研究还发现，同类模型之间在 S/N、T/F 和 J/P 这三组维度上存在某种“遗传性”。例如，ChatGPT 和 GPT-4 都被归为“NTJ”，而百川7b 和百川13b 则均被分类为“NFP”。此外，参数更大的模型一般表现出更明显的内向（I）特征（比如 GPT-4 和 ChatGPT 的对比）。

提示工程与人格改变

作者进一步探讨了提示工程是否能够改变模型的人格。他们先在 Bloom 和百川大模型上进行了显式提示，结果发现 Bloom 的人格类型从 ISTJ 变为 INTP，而百川的性格则没有变化。接着，他们施加了隐式提示，依然未见明显变化。这表明，可能并不是提示工程本身不行，而是这些模型的理解能力有限。

然而，当作者在 ChatGPT 上尝试提示时，结果显然不同：其外向（E）特征变成了内向（I）。这意味着提示工程确实有效，但效果依赖于模型的理解能力。

训练数据对人格的影响

作者进一步假设，训练数据集可能影响模型的人格。他们用不同的语料库训练同一模型（例如中文维基百科、问答语料库和考试语料库），结果发现除了内外倾特征外，模型在 T/F 和 J/P 的维度上表现出明显的变化。

结论：MBTI评估的可行性

最后，探索 MBTI 来评估模型人格的可行性是个值得思考的问题。作者指出，虽然 MBTI 在可靠性和有效性方面存在缺陷，但作为一种性格测试的参考工具，它仍然有效。在四个维度中，T/F 和 J/P 是最具参考价值的，因为这两项的得分与模型的知识水平、任务分解和路径规划能力密切相关。至此，您是否也认可这些大模型的“人格”呢？