万万没想到,ChatGPT参数只有200亿?

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

 

这合理吗?

谁也没想到,ChatGPT 的核心秘密竟在这样一个背景下被微软透露出来。

昨晚,多个讨论 AI 的微信群因一篇 EMNLP 论文和相关截图而热议不已。这篇由微软发布的论文题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》,在进行对比时透露出一个重要信息:ChatGPT 竟然只有 20B(200 亿)参数,这引起了广泛关注。

距 ChatGPT 发布已经快一年了,但 OpenAI 一直没有披露其技术细节。由于 ChatGPT 的强大性能,公众对于其参数量、训练数据等信息充满了疑问与猜测。

作为行业的一项标杆,ChatGPT 拥有卓越的性能,能够解决各种各样的问题。其前身 GPT-3 的参数量达到 1750 亿,然而经过实用化的 ChatGPT 却被 OpenAI 缩减至近 9 倍,这合理吗?

“关于这篇论文的看法”这一话题迅速登上了知乎热榜。

具体来说,微软的这篇论文提出了一种预训练的扩散代码生成模型——CodeFusion,其参数量为 75M。在实验比较部分,论文的表 1 中明确将 ChatGPT 的参数量标示为 20B。

众所周知,微软与 OpenAI 长期以来保持着合作关系,这篇论文又是 EMNLP 2023 的作品,因此大家推测这个数据很可能是真实的。

然而,对 ChatGPT 参数量的猜测一直认为是一个庞大的数字。毕竟,GPT-3 的参数量就已经达到了 175B(1750 亿)。掀起大型语言模型(LLM)热潮的 ChatGPT,难道仅有 20B 参数?

关于这一数据的讨论在知乎和 Twitter 上引发了广泛的关注。毕竟,200 亿参数能够实现这样的效果,实在令人惊讶。而目前国内新兴的大模型通常动辄数百亿甚至上千亿参数。

这个数据的真实性究竟如何?大家对此都有怎样的看法?

知名 NLP 博主、新浪微博新技术研发负责人张俊林进行了“盲猜”分析,引起了广泛共鸣。他的观点如下:

他提出不负责任的猜测,认为 GPT-4 在去年 8 月已经完成,ChatGPT 估计是 OpenAI 为了应对 Anthropic 推出Claude而临时制作的。当时,GPT-4 的价值观可能尚未对齐,OpenAI 不敢轻易发布,于是临时推出了 ChatGPT 以抢占市场。根据 OpenAI 在 2020 年发布的 Scaling Law 和 DeepMind 在 2022 年推出的改进版本 Chinchilla Law,OpenAI 在开发大模型时肯定是遵循科学原则的,而不是凭空推测。由此,有两种可能性:

可能性一:OpenAI 可能在看到 Chinchilla 论文后,按照其理论进行模型设计。假设 ChatGPT 的训练数据量不低于 2.5T 个 token,那么根据 Chinchilla Law,通常训练数据量除以 20 应该是最优参数量。因此可以推测,若如此,ChatGPT 的模型大小约为 120B。

可能性二:如果 OpenAI 在开发 ChatGPT 时未曾看到 Chinchilla 论文,则可能依据其自创的 Scaling Law 设计训练数据和模型规模。推算训练数据量除以 12.5 的官方参数最为优越,若假设训练数据量为 2.5T,那么 ChatGPT 的模型大小将在 190B 到 200B 之间。

因此,大概率 ChatGPT 在推出时参数量在 200B 左右,这也是人们曾感受到速度较慢、价格较高的原因。3 月份,OpenAI 进行了大规模升级,价格降至之前的十分之一。如果仅靠量化是不太可能实现如此大的压缩,当前的普遍观点是大模型的量化压缩能保留在 4 到 6bit。因此,OpenAI 的此次升级很可能是将自己改进到 Chinchilla 的 Scaling Law,从而将模型缩减至约 120B,接近一半(也有可能远小于 120B,若依照 Chinchilla Law,LLaMA 2 最大的模型应为 100B,这样算力分配会最优,成本效益也最佳。然而实际上,LLaMA 2 的最大模型仅为 70B,而且更小的 7B 模型也使用了超大数据集。

LLaMA 1 的 65B 模型基本符合 Chinchilla Law,然而 LLaMA 2 的最大模型却开始突破 Chinchilla Law,采用了更大数据集。因此,目前大模型的发展趋势并不是算力最优分配,而是总体倾向于增加数据量并减少模型规模,这样尽管训练成本不高,但推理成本则最为划算。毕竟训练往往是一次性的,而推理则是频繁的,因此这种配置显得更加合理。再加上如 4bit 量化等技术优化,使推理模型的大小能压缩 4 倍,性能提升约 8 倍,因此通过增大数据、减少模型规模,采用其他优化技术,也有可能将推理成本降至十分之一。此后,在 6 月和 8 月,OpenAI 的价格又分别下调了 25%。

解释为何 ChatGPT 的训练数据量不太可能低于 2.5T,LLaMA 2 的训练数据量为 2T,其表现应略逊于 ChatGPT。因此,推测至少 2.5T 的训练数据是合理的。根据研究,当模型规模固定,只要持续增加训练数据量,模型性能便会直接提高,Mistral 7B 之所以表现极为出色,归根结底是训练数据量达到了 8T。因此可以认为,ChatGPT 使用的数据量不太可能低于 2.5T。

当然,还有另一种可能,就是在 ChatGPT 后期优化(如第一次大升级或其后的升级中),有可能不再完全依赖 Scaling Law,而是采纳类似 Mistral 的方式,固定模型规模在 20B,疯狂增加训练数据,并且构建合适的 instruct 数据,从而确保效果。

不管怎么说,对于适用于具体应用的模型而言,可以呼吁中文开源模型效仿 Mistral,固定一个最适合使用的模型规模,然后大量增加训练数据,再配合有效的 instruct 策略,定能打造出小规模却具备优良效果的模型。我个人认为,对于开源模型而言,7B 到 13B 的规模将是竞争的关键所在。有志于开源的人士若能加大训练数据量的投入,必然能取得更好的进展。

早在 OpenAI 开放 ChatGPT API 时,以 0.002 美元/1k token 的定价就引发了广泛关注,这一价格仅为 GPT-3.5 的 1/10。彼时,便有人推测“ChatGPT 的参数量在 10B 左右”,并认为“ChatGPT 使用的奖励模型(reward model)可能达到千亿级”。这一推测源于清华大学 NLP 的在读博士郑楚杰的知乎回答。

而国内外的许多网友也纷纷表示,200 亿的参数量是完全合理的。

也有网友从价格角度进行分析,认为这个数据也应被认可。

当然,也有网友持不同意见,认为这可能是个“拼写错误”,实际应为 120B(1200 亿),这至少与 GPT-3(175B)的数量级相当。

然而,这些都只是猜测。由于 OpenAI 对参数量、训练数据、方法等核心信息一直保持沉默,因此 20B 的数据是否真实,根本无法证实。如果这是真的,那么未来大型语言模型的改进方向是否还会是增加参数量呢?

再过几天,就是 OpenAI 的开发者大会,也许我们能了解到更多有用的信息,让我们拭目以待。

滚动至顶部