疑似威胁人类?OpenAI神秘Q*项目更多信息曝光,马斯克、Lecun下场争论…

随着前天OpenAI正式宣布Sam Altman将重返公司并继续担任首席执行官,OpenAI的“宫斗事件”已经暂告一段落。

然而,对于热衷于追踪这场风波的我来说,仍有一个核心问题没能弄明白:

Sam Altman究竟为何被董事会开除?

在此之前,网络上存在各种猜测,但似乎都没有确凿的证据。直到昨天,路透社曝光了新的消息:

“在Sam Altman被OpenAI开除前的四天,几名研究人员向董事会发出了一封信,警告称一个名为Q*的强大AI项目可能对全人类构成威胁。消息人士透露,这封此前未报道的信件和该AI算法的突破是董事会罢免Sam Altman的原因之一。”

一些内部人士认为,Q*项目可能代表了OpenAI在AGI领域取得的关键突破。该项目背后的新模型能够解决一些基础数学问题(尽管仅限于小学生的水平),但研究人员认为,数学能力是生成式AI发展的前沿。目前生成式AI擅长通过统计方法预测下一个单词,进行写作与翻译,但同一问题的答案可能会大相径庭。

而能够征服仅有一个正确答案的数学能力,则暗示着AI可能具备比人类更强的推理能力。

那么,为什么这一点会成为董事会罢免Sam Altman的原因之一呢?

合理推测,OpenAI的几位董事会成员,比如首席科学家Sutskever、曾担任多家科技公司的高管Tasha McCauley,以及乔治敦大学安全与新兴技术中心(CSET)战略与基础研究基金主任Helen Toner,都是“有效理他主义”的信徒,简单来说,就是“AI保守派”。他们首要任务是确保创建的AI对全人类有益,确保AI不会威胁人类,这也正是OpenAI董事会的使命。

Helen Toner曾表示,即便发生任何事情导致OpenAI解散,那也无妨,董事会的使命更为重要。

而Sam Altman则更倾向于AI加速派,认为AI不会失控。他的首要目标是为OpenAI争取更多融资,并寻求更好的商业化途径,毕竟GPT系列大模型的开发消耗巨大,唯有如此,才能慢慢迈向AGI。

因此,Q*项目所取得的突破,可能让几位董事会成员感到这一进展对人类的潜在威胁,他们希望放缓研发速度,将AI安全和对齐问题置于首位,这正是Sutskever最近几个月所致力于的方向。Altman与几位董事会成员在AI安全问题上没有形成共识,加之他与其他董事在商业化路线上的显著分歧,这也许促使了董事会成员们不惜一切代价罢免Altman。

当然,以上仅为合理猜测,Altman被罢免的真正原因尚待官方揭晓。接下来,我们再深入了解一下Q*项目的背景和更多信息。

Q*项目背景及细节曝光

据《The Information》报道和知情人士透露,多年来,OpenAI首席科学家Sutskever一直致力于研究如何使像GPT-4这样的语言模型解决涉及推理的数学或科学问题。2021年,他启动了名为GPT-Zero的项目,以向DeepMind的棋类AI大师AlphaZero致敬。

在今年早些时候,Sutskever领导的这一项目取得技术突破,能够自我“生成”数据——理论上,可以像AlphaZero自我对弈一样,使用计算机生成无限高质量的数据。这一发展克服了如何获取足够高质量数据以训练新模型的限制,因为据悉,OpenAI几乎已经将互联网上公开的数据用尽,无法再获取更多数据进行下一步训练。

AbacusAI的CEO Bindu Reddy在推特上引用这一消息,称这项成果使OpenAI能够利用合成数据,解决训练数据限制的问题:“当用足够的示例进行训练时,模型开始表现得很好!”

这对开源和去中心化AI来说是个好消息——我们不再被那些数据丰富的公司束缚。

两位研究人员Jakub Pachocki和Szymon Sidor利用Sutskever的研究成果,开发出名为Q*的模型,构建了可以解决基础数学问题的系统。这一领域一直是当前AI模型面临的挑战。

从名称来看,Q*可能与强化学习中的Q-learning算法有关,这是一种评估AI在特定情境下采取特定行动的好坏的方法,旨在指导AI在不同情境下做出最优决策。

更有可能的是,Q只是一个代号,Reddit用户对此进行了爆料和猜测,认为Q*背后的模型可能具备自主学习和自我改进的能力。该模型似乎能够通过评估其行为的长期后果,在多种场景中做出复杂决策,甚至可能具备轻微的自我意识。

AI真的已经拥有轻微的自我意识?

这一说法听上去颇为“荒唐”,连我这样一个只上过小学的人都不敢相信。毕竟,意识这一难题至今尚无破解的科学进展,只是停留在哲学探讨与神经科学的研究阶段。

然而,就在一个月前,OpenAI首席科学家Sutskever在接受《MIT科技评论》专访时表示:“ChatGPT可能是有意识的。”他在专访中还阐述了他并不打算构建下一个GPT或DALL-E,而是想弄清楚如何阻止超级人工智能失控。作为未来主义的信徒,他认为这一技术终将在假设的未来出现。他警告称,必须认识到OpenAI和其他公司正在竞相创造的技术的真正力量,甚至有些人可能会选择与机器融合。

大数据范式只是权宜之计?

推特上,各路大神们对这一事件进行热烈讨论。

英伟达的高级人工智能科学家Jim Fan表示:“合成数据显然将为下一个万亿个高质量的训练tokens提供支持。我敢打赌,大多数大型模型团队都清楚这一点。关键问题在于如何保持数据质量,并避免模型达到瓶颈。”

RichardSSutton的惨痛教训仍在指导AI的发展:“只有两种范式能随着计算的无限扩展,那就是学习与搜索。这在2019年是正确的,今天也是如此。我敢打赌,直到我们解决AGI问题的那一天,这仍将是正确的。”

马斯克则感叹:“有些事让人感到可悲的是,人类所写的每一本书的文本信息量只需存放在一个硬盘上。但合成数据将是无穷无尽的。”

Perplexity AI的CEO指出,特斯拉已经在使用合成数据进行训练,这就是所谓的自动标注项目。

图灵奖得主Yann LeCun却认为,大数据范式只是权宜之计:“动物和人类只需要极少的训练数据,就能迅速变得非常聪明。我愿意把钱投入到能够像动物和人类一样高效学习的新架构上。由于我们当前方法的局限性,依赖更多数据(不论是合成还是非合成)都只是临时权宜之计。”

他进一步举例说明:“鹦鹉、狗和章鱼大约各有20亿个神经元,难道我们不能让拥有20亿个神经元的机器在几个月的实时训练中变得和这些生物一样聪明吗?”

一些网友对此发表了见解:“难道人类数百万年的进化适应不就类似于预训练,而我们一生的经历就像持续微调吗?”

LeCun对此表示,这种说法不够准确,强调训练过程的复杂性。

有AI研究员则回应LeCun:“我们人类同样经历了庞大的数据训练。我们从未从零开始训练,例如我们不断接收来自视频、音频及传感器的数据,更不用说DNA编码的“指令”了。我们的学习过程比大型语言模型复杂得多。”

针对LeCun的观点,Eduardo Slonsk表达了对其理论的认可。

LeCun总结道:“目前大型语言模型所接受的文本数据相当于人类需要20,000年才能阅读完的量。而它们依然无法理解,如果A与B相等,那么B与A也是相等的(这被称作逆反诅咒)。在相对较少的训练数据下,人类却能够迅速变得更加聪明,即使是乌鸦、鹦鹉、狗和章鱼,它们同样能够比这更快进化。”

大语言模型是通向AGI的钥匙吗?

前不久,Sam Altman在接受《金融时报》采访时曾表示,尽管OpenAI在ChatGPT和用户体验方面取得了成功,但ChatGPT和GPT商店并非OpenAI真正想要构建的产品。他提到,构建通用人工智能是最终目标,而ChatGPT背后的大语言模型(LLM)仅是实现这一目标的“核心部分之一”。

在开发通用人工智能的竞赛中,Altman指出,此类AI系统缺乏根本性的“理解飞跃”。

他以历史上的牛顿为例,称在一段时间内,他的常规做法是阅读更多的数学书籍,与教授讨论并练习问题(这实际上代表了大数据训练范式)。但是,牛顿不可能仅仅通过阅读几何或代数来发明微积分(而是需要找到新的范式),OpenAI实现AGI的过程也应如此。

针对这一事件,国内也掀起了讨论,知乎大V、清华大学博士谢凌曦的观点相当犀利:

要实现AGI,仅靠算法突破的可能性非常小。

目前业界并没有建立可以像训练ChatGPT那样训练计算机视觉算法的交互环境。“要想实现真正的视觉大模型,必须先建立像对话一样的视觉交互环境。”

除非某天我们看到OpenAI的机器人遍布街头,与人类互动以收集数据,或者OpenAI创建足够丰富的虚拟环境以模拟各种具体任务,否则我不相信ChatGPT的开发方式能够成功转化为视觉领域。

谢凌曦接着补充了一些背景知识,指出任何技术飞跃往往不是单一突破,而是多方面技术积累的综合结果。

他认为,当前研发网络架构设计与自我监督学习算法的意义远不及创建真正的世界模型(或足够复杂的交互环境实现方法)的意义重大。唯有实现后者,才能看到AGI的实质性进步。

马毅教授在微博上也表达了类似观点,表示对智能本质的理解,我们仅仅处于起步阶段。

滚动至顶部