除了行业竞争层面的担忧,OpenAI首席科学家透露了不开放源代码的另一个原因:随着模型的增强,安全隐患也随之增加。
3月15日凌晨,OpenAI意外地发布了GPT-4。这一消息令科技界感到惊讶,因为人们普遍认为GPT-4会在微软周四的“AI与工作的未来”活动上公布。距ChatGPT第一次亮相仅过去四个月,它便创造了“历史增长最快的消费者应用程序”的记录。如今,GPT-4上线,产品的应对能力提升到了一个新水平。
然而,在震惊之余,很多研究者认真阅读了GPT-4的技术报告,却感到失望:为何没有技术细节?
一次违背创始精神的发布
在公告中,OpenAI分享了大量关于GPT-4的基准和测试结果以及一些有趣的演示,但几乎没有提供与训练系统相关的数据、算力成本或创建GPT-4所用的硬件和方法的信息。例如,有人总结道:“我们用的是Python。”更有人打趣:“我读到了GPT-4是基于Transformer架构的。”
许多AI领域的成员批评这一决定,指责它损害了OpenAI作为研究型组织的创始精神,使其他人更难以复现其工作。大多数初步反应对GPT-4的封闭模型持负面态度,但愤怒似乎无法改变其“闭源”的决定。
事实上,对于OpenAI不开放源代码的批评已持续了一段时间。连OpenAI的创始团队成员马斯克也公开质疑这一“背离初心”的做法。他至今对这一问题感到困惑:“我不明白,为什么一个最初投了近1亿美元的非营利机构会变成市值300亿的商业公司?”
Nomic AI信息设计副总裁Ben Schmidt指出:“我认为可以停止称其为‘开放’——GPT-4的98页论文自豪地宣称,他们没有披露有关训练集内容的任何信息。”
法律责任与安全隐患
有一些观点认为,OpenAI隐瞒GPT-4细节的另一个原因是法律责任。AI语言模型是在庞大的文本数据集上训练的,许多模型(包括早期的GPT系统)都可能从网络抓取信息,其中一个来源可能包含受版权保护的素材。目前,已有几家公司因为这些问题被独立的艺术家和图片网站Getty Images起诉。
更重要的是,缺乏对GPT-4训练数据的透明度,使得制定保障措施变得更为困难。Ben Schmidt也认为,由于无法查看训练数据,很难判断该系统在哪些情况下是安全使用的,并提出相应的修复方案。“众所周知,像GPT-4这样的神经网络是黑箱。它们的运作不可预测且难以理解,这是关于是否应使用这些模型及在何处使用它们的关键问题。如今OpenAI逐渐制定了一个标准,进一步扩大了这一谜团。”Ben Schmidt表示。
开源与安全的博弈
OpenAI首席科学家兼联合创始人Ilya Sutskever对此争议作出回应,表示不分享更多GPT-4细节的原因主要是“出于对竞争和安全的担忧”。他说:“在竞争方面,外部环境非常激烈。GPT-4的开发难度很大,几乎汇集了OpenAI的所有力量,经过长时间的努力才产出了这个成果,许多公司也想做同样的事情。”
Sutskever还提到,安全方面的考虑虽然没有竞争方面那么强烈,但也随时可能发生变化。他指出,随着模型效率的提高,某些情况下,如果有人愿意,使用这些模型造成巨大伤害将变得相当容易。因此,不公开这些能力是有道理的。
当被问及为何OpenAI改变了分享研究成果的方式时,Sutskever坦诚表示:“坦率地说,我们错了。如果相信在某个时刻,AI或AGI将变得极其强大且不可思议,那么开源就没有意义,这是一个坏主意。我完全相信,几年后每个人都会意识到开源AI是不明智的。”
Lightning AI首席执行官William Falcon表示,从商业角度理解这个决定是可以的:“作为一家公司,你有权这么做。”然而,他同时指出,OpenAI的做法为更广泛的社区树立了一个“坏的模板”,可能会造成不良影响。
关于OpenAI不共享其训练数据的原因,Sutskever的解释是:“我的观点是,训练数据是技术。我们不公开训练数据的原因与不公开参数数量的原因几乎相同。”当被问及OpenAI是否能够明确表明其训练数据不包含盗版材料时,Sutskever没有作出回应。
Sutskever承认开源模型有助于改进安全措施的观点。“如果有更多人研究这些模型,我们就能学到更多,进而能更好,”他说。出于这些原因,OpenAI向某些学术和研究机构提供了访问其系统的权限。
期待未来
围绕GPT-4的热议预计还会持续一阵,以至于人们可能会忽略一些其他动态。例如,在昨日铺天盖地的讨论中,谷歌的发布显得格外低调。目前,Google Workspace已全面集成生成式AI,更新了生成图片、演示文稿、电子邮件和文档等功能,这将极大提升生产力。
我们可以期待的不止这些:不久之后,微软CEO萨蒂亚·纳德拉将亲自登台介绍微软与OpenAI的更多合作,特别是基于GPT-4的Office套件。
让我们拭目以待。