搜索引擎市场的格局已有二十年未见大变,如今,Google 和微软这两大巨头的竞争再次引发关注。随着 ChatGPT 的流行,搜索引擎已成为大型语言模型(LLM)应用竞争的焦点。
在 LLM 技术进展方面,Google 与 OpenAI 的 ChatGPT 实际上是齐头并进的。然而,近期推出的 Bard 显得相对被动。Google 官方解释称,他们需要考量新技术对社会的影响,不希望推出一个漏洞百出的搜索系统。
作为商业机构,任何行为的背后都必须考虑经济成本。搜索广告市场的每一个百分点的变动,可能会带来数亿美元的收入波动。Google 要将效果尚未理想的 LLM 作为基础技术引入全球市场份额高达 92% 的搜索业务中,这在没有外部竞争压力的情况下,显然难以进行大胆的创新。
另一方面,自我革命是一项严重违背人性的行为,尤其考虑到大企业往往面临所谓的“大企业病”,在决策上犹豫不决是常态。
这正是微软 Bing 可趁机而入的时机。Bing 在全球市场的份额目前不足 3%,历史负担较小,而 New Bing 的发布消息则让 Google 感受到压力。
ChatGPT 的用户数已超过 1 亿。若 Google 搜索此次不跟进 LLM,仍然按照自己的节奏逐步演变,其搜索业务存在被颠覆的巨大风险;而若 Google 跟进 LLM,又需承担用户体验不佳的风险,同时在已有成本基础上支出大约 300 亿美元。
显然,Google 与微软高层都深知这一点:前者愈发感到焦虑,后者则激动不已。
在权衡风险后,Google 不得不硬着头皮迎战,因此推出了 Bard。Bard 是“流浪诗人”的意思,根据百度的解释,此类诗人常常半诚不诚、漫不经心,样样都会但又做得不够细致。讽刺的是,这种风格正好符合目前 LLM 模型的能力状况。相比之下,微软的 New Bing 则表现得如同一个充满干劲的“拼命三郎”,希望大展拳脚,因为在某种程度上,Bing 已经没有什么可以失去的,今后极有可能实现反弹。
那么,ChatGPT 到底会如何影响现有的搜索架构和相关业务成本?此前,OneFlow 发布的《ChatGPT背后的经济账》从经济学角度分析了训练大型语言模型的成本。本文将从 LLM 搜索架构和成本分析的角度,探讨微软 Bing 和 OpenAI 如何利用大型语言模型(LLM)以颠覆搜索业务,并分析 LLM 在搜索中的演进与发展。
ChatGPT 的迅猛崛起
OpenAI 推出的 ChatGPT 风靡全球,仅在一月份迅速积累了超过 1 亿的活跃用户,成为历史上用户增长最快的应用程序。与此之前,Instagram 花费了 30 个月才达到这一数字,TikTok 只用了 9 个月。大家最关心的问题是,LLM 对搜索的破坏性到底有多大。微软此前宣布晴天霹雳般的消息:OpenAI 的技术将与 Bing 搜索引擎深度整合。
“New Bing 会让谷歌坐立不安,我希望公众知道我们一直是谷歌急切求变的助推器。”——微软 CEO 萨提亚·纳德拉。
谷歌近期的举动显得“焦躁不安”。我们相信,谷歌拥有世界上最优秀的模型和最尖端的 AI 专业技术,但长期以来,他们未能将这一领先优势转化为实际收益。来自微软和 OpenAI 的竞争压力正在迅速改变这一局面。
要为搜索领域带来颠覆与创新,需要相应的资金投入,而训练 LLM 的成本非常高。更重要的是,无论以何种合理规模部署模型,其推理成本都远超训练成本。
实际上,推理 ChatGPT 的费用每周甚至超过其训练成本。目前,ChatGPT 每天的推理成本高达 70 万美元。如果将当前 ChatGPT 直接集成到谷歌每次搜索中,谷歌的搜索成本将显著增加,达到 360 亿美元。谷歌服务业务部门的年净收入预计将从 2022 年的 555 亿美元下降至 195 亿美元。如果引入“类似 ChatGPT”的 LLM,意味着谷歌需要将 300 亿美元的利润转移到计算成本中。
当然,这种情况不大可能发生。在软件和硬件改进之前,这只是一种有趣的假设。
1. 搜索业务现状
首先来看搜索市场的情况。调查显示,谷歌每秒约有 32 万次搜索查询,而其搜索业务部门在 2022 年的收入为 1624.5 亿美元,平均每次查询的收入为 1.61 美分。谷歌需要承担计算和网络搜索、广告、网络爬虫、模型开发、员工等大额开销。值得注意的是,为了成为苹果设备的默认搜索引擎,谷歌每年支付约 200 亿美元的费用。
谷歌服务业务部门的营运利润率为 34.15%。如果将每次查询的成本分摊,则每次搜索查询的成本为 1.06 美分,产生的收入为 1.61 美分。这意味着基于 LLM 的单次搜索查询费用必须低于 0.5 美分,否则搜索业务对谷歌而言将毫无利润可言。
微软宣布,New Bing 将融入一款新的下一代 OpenAI 大型语言模型。该模型专为搜索业务定制,结合了 ChatGPT 和 GPT-3.5 的重要经验和成果,具有更快、更准确和更强大的功能。
2. ChatGPT 的成本
考虑到某些未知因素,估算 ChatGPT 的成本是一项挑战。我们建立了一个成本模型,结果显示,维护 ChatGPT 在计算硬件上的每日运营成本约为 694,444 美元。OpenAI 需要约 3,617 台 HGX A100 服务器(共 28,936 个 GPU),预估每次查询成本为 0.36 美分。
该成本模型从每次推理的角度出发,与 Sam Altman 在推特和最近的访谈中所提到的内容相符。
我们假设 OpenAI 使用了 GPT-3 的密集模型架构,这一架构参数数量为 1750 亿,隐藏维度为 16,000,序列长度为 4000,平均每个响应的 token 数为 2000,每个用户平均响应 15 次,日活跃用户为 1300 万,浮点运算利用率为 FasterTransformer 的两倍且延迟小于 2000 毫秒,采用 int8 量化,闲置时间占用 50% 的硬件利用率,每个 GPU 每小时成本为 1 美元。如有不同意见,欢迎指出意见。虽然我们相信我们的计算在合理范围内,但乐意进一步精确。
3. 整合 ChatGPT 的搜索成本
如果将 ChatGPT 整合到谷歌现有的搜索业务中,将产生毁灭性的影响,谷歌的营收将减少 360 亿美元。以下是 LLM 的 360 亿美元推理成本的分析。
若想将当前的 ChatGPT 部署到谷歌搜索中,需要 512,820.51 台 A100 HGX 服务器和总计 4,102,568 个 A100 GPU。这些服务器和网络的总成本中,资本支出将超过 1000 亿美元,大部分资金将流向英伟达。当然,这不会真正发生,但如果假设没有任何软硬件改进,这可以视为一种有趣的思想实验。采用谷歌的 TPUv4 和 v5 进行建模也将呈现不同的推理成本,同时我们也有一些 H100 LLM 推理性能方面的改进数据。
令人惊讶的是,微软知晓将 LLM 融入搜索将摧毁搜索的盈利能力,并需要巨额资本支出。他们虽然估算了营业利润的变化,但也对 Satya Nadella 关于搜索毛利率的看法表示关注。
“从现在开始,搜索的 [毛利率] 将一直呈下降趋势。”——微软 CEO 萨提亚·纳德拉。
搜索毛利率的下降已是既定事实,考虑到搜索质量的提高,搜索量可能会减少,此外我们在大型语言模型的响应中难以插入广告等问题也复杂了现状。
微软正在全力以赴摧毁搜索市场的盈利能力。
“在搜索广告市场中,每增加一个百分点的份额,我们的广告业务就有可能获得 20 亿美元的收入。”——微软。
尽管必应的市场份额很小,微软抓住的任何份额增长都将为其带来巨大收益。
“我相信我们双方都会受益匪浅。我们逐步发掘出这些大模型的潜能,但如果搜索业务被垄断,发展停滞,那么从搜索和广告中获利将成为问题。”——OpenAI CEO Sam Altman。
与此同时,谷歌正处于劣势地位。如果谷歌搜索市场的地位受到动摇,它的利润将受到巨大影响。搜索市场份额的丧失可能会带来比以上分析更糟糕的后果,特别是谷歌的运营成本极高。
4. 谷歌的应对措施
对此,谷歌并非坐以待毙。在 ChatGPT 发布仅几个月后,谷歌迅速推出了集成 LLM 的搜索版本。目前来看,微软的 New Bing 和新版谷歌搜索各有优劣。
集成 ChatGPT 的 New Bing 搜索引擎在 LLM 功能上似乎更为强大。谷歌在搜索准确性上存在问题,甚至在 Bard 的演示中也出现了类似情况。然而,在响应时间方面,谷歌的 Bard 相较于 Bing GPT 却表现得更为迅速。这些模型在响应时间和搜索质量上的差异直接与模型规模相关。
“Bard 将世界知识广度与大型语言模型的力量、智慧和创造力相结合,并通过网络提供及时、优质的回答。”——谷歌。
谷歌试图通过部署轻量级模型扩大利润空间。他们可以选择部署全尺寸的 LaMDA 模型或更强大的 PaLM 模型,但却选择了相对简单的 LaMDA 轻量级模型。
对谷歌而言,这是一项必要选择。
谷歌无法将这些庞大的模型也整合到搜索中,因为这会极大地降低利润率。虽然我们稍后会讨论 LaMDA 的轻量级版本,但重要的是要意识到 Bard 在时延上的优势是其竞争力之一。
谷歌的搜索收入依赖于广告,而不同用户在搜索时为谷歌带来的收益存在显著差异。相比印度男性农民,美国郊区女性每次点击行为所带来的平均收益要高得多,这意味着不同用户会带来截然不同的营业利润率。
5. LLM 在搜索中的发展
将 LLM 直接融入搜索并不是提升搜索性能的唯一途径。多年来,谷歌一直在搜索中应用语言模型,以生成 embedding。这种方法可以在不增加推理成本的情况下,改善最常见的搜索结果,因为这些 embedding 可以一次性生成,供多个搜索结果共同使用。
相比 ChatGPT 的 2000 个 Token 输出总数,Bing GPT 则拥有约 350 个 Token 的输出总数,且输出次数远低于 ChatGPT。通常情况下,人们在搜索时并不愿意阅读冗长的信息,估算中也考虑了未向用户展示的 Token。
后续的优化表明,前 2000 个关键词占据了搜索量的 12.2%,其余则属于纯导航性搜索(purely navigational searches),假设 20% 的搜索不需要 LLM。最后,与基于 NVIDIA 的 HGX A100 采用的 Microsoft/OpenAI 架构相比,谷歌使用内部 TPUv4 pod 的基础设施优势明显。
一些简单的优化可以让谷歌以仅 30 亿美元的额外成本将 LLM 部署到搜索中。如果一切开始时完美设置,那么谷歌在硬件上的支出就约为 200 亿美元,作为基础设施。这是在 NVIDIA H100 与谷歌 TPUv5 这样的新硬件,以及 MoE、稀疏性、剪枝、模型蒸馏、kv 缓存和提前退出机制(early exit)等技术投入之前的情况。
用户不太可能接受连接到互联网的 ChatGPT 接口,因为其运行缓慢、容易生成虚假信息且难以有效变现。尽管如此,上述分析仍显得过于简化。
随着用户体验的转变,单位收入经济学(unit revenue economics)和成本结构将在未来两到三年内迅速发生变化,预计将进行完全重构。
6. 整体搜索堆栈的 LLM 实现
了解当前的搜索架构是深入研究搜索收入和成本重大变革的基础。搜索的目标是在最短时间内提供相关信息。用户输入关键字时,搜索结果应根据优先级进行排列。搜索工作流主要包括四个进程:爬虫、索引、查询处理器和广告引擎。机器学习模型早已渗透进这四个领域。
爬虫
爬虫自动寻找互联网上的新内容,包括网页、图片和视频,并将其归档至搜索引擎数据库(索引)。通过机器学习,爬虫能够评估待索引页面的价值、识别重复内容并寻找页面间的链接以优化抓取策略。时延(latency)对搜索至关重要,稍有几百毫秒的变化便可显著影响用户的搜索数量。
谷歌与 Bing 利用图像和小型语言模型来生成存在于页面/图像/视频中的元数据。大规模扩展这些功能是将大型语言模型和多模态模型融入搜索的关键点,而当前所有简单的搜索成本模型都未考虑这一点。
索引
索引是存储抓取信息的数据库。在索引层,可以进行大量预处理以优化必要搜索的信息量,最大限度地减少延迟,提高搜索相关性。
相关性排序:模型可基于相关性对索引中的页面进行排序,以便首先返回与用户查询最相关的页面。
聚类:模型可将索引中的相似页面分组,方便用户找到相关信息。
异常检测:模型可检测索引并移除异常或垃圾页面,从而提高搜索结果的质量。
文本分类:模型基于内容和上下文对索引页面进行分类。
主题建模:模型可识别页面涵盖的主题,每个页面则对应一个或多个主题。
尽管目前的索引层由较小的模型与 DLRM 完成,但若嵌入 LLM,搜索的有效性将显著提升。大多数简单的搜索成本模型忽略了这一点,后续报告将对此进行深入讨论并估算成本。
查询处理器
查询处理器是搜索工作流中最关注的层面,用于接收用户查询并生成最相关的结果。首先对用户的查询进行解析,再从索引中提取最相关的条目,最后对结果进行重新排序和过滤,确保返回给用户的是最匹配的结果。
现在这一工作流中应用了多个模型,从基本的拼写检查到自动扩展用户查询以提高查询结果的准确性,都是为了基于用户的搜索历史、位置、设备、偏好及兴趣进行个性化处理。然而,目前实现这些功能仍需在多款小型模型上进行推理。
用户提交的是实时查询,因此必须快速有效地执行查询处理工作。相比之下,爬虫和索引则可持续进行,无需即时交互。
谷歌与 Bing分别采用了不同的硬件实现经典方法。谷歌使用大规模标准化的 CPU 和内部 TPU,而 Bing 则使用标准化 CPU 与 FPGA,后者加速了排序方法(Ranking)与 AI 功能。
广告引擎
尽管搜索堆栈的最后三个部分都与满足用户及其留存相关,但其中广告引擎被认为是最重要的一环,因为一切变现的来源均源自广告引擎的质量。查询处理器与广告引擎间存在实时交互,广告引擎必须建模用户查询、用户档案、位置与广告效果间的关系,从而为用户生成个性化建议,以最大化点击率与收入。
广告市场是一个实时竞标的大市场,广告商通常为关键词、短语或特定用户类型付费。由于支付金额并非衡量服务的唯一标准,广告模型不再将其视为唯一标准。该模型需要优化转化率以获取收益并提升效果,因此搜索相关性成为高度优化的参数。
总体来说,过去四年里,谷歌搜索结果中的顶级页面中有 80% 没有广告。此外,目前仅有不到 5% 的搜索结果中包含四个排名靠前的文本广告。
随着 LLM 的应用,消费者的视野不再仅限于前几个搜索结果,其中的广告也可能成为广告商所需的销售渠道。然而,现在广告已成为大型语言模型的输出。因此,伴随对话式 LLM 的出现,广告成了搜索堆栈中变化最大的一部分。本报告后面将详细讨论变现方式的变化,因为这对于广告服务的运作方式将是根本性转变。
7. 根本性转变
搜索中的 LLM 不仅是一个集成在搜索引擎界面内的大模型,而是一个多模型结合的体系,每个模型都旨在为链条中的下一个模型提供最密集且相关的信息。这些模型必须基于活跃用户进行不断的训练、调整与测试。
尽管谷歌是首个在搜索堆栈的四个层面上使用人工智能的企业,但如今搜索正在经历用户体验、使用模式与商业结构的根本性转变,可能使许多软件堆栈中的现有部分失效。关键在于谷歌是否能承担这项任务。保护好“金蛋”的同时,谷歌是否能够调整其搜索堆栈?
“快速前行,打开局面。”——马克·扎克伯格,2011。
在明确应用模式之前,谷歌是否具备超优化其搜索堆栈的文化要求?假设谷歌在运营中以最低成本分配过多资源,达到了搜索相关性的局部最大值,那么可能会把自己困住,反而限制了扩展及测试新应用模式所需的模型发展与创新。
相对而言,微软和 OpenAI 拥有更大的冒险精神,更可能大胆地彻底改造搜索堆栈的四个要素。谷歌过于谨慎以及过早优化的最明显例子正是 Bard。
“Bard 将与 LaMDA 的轻量级版本一起发布。这个模型需要的算力更少,因此我们能将其应用于更多用户,从而获得更多反馈。”——谷歌。
谷歌此时缩减了 2021 年初开发的一个模型。虽然该模型自开发以来有所改进,但相较于 OpenAI 和微软使用的在 2022 年底与 2023 年初开发的更大模型与更新架构,谷歌显然处于劣势。
更令人不安的是,一些有远见的优秀人才(如 BERT 的创始人、PaLM 推理的首席工程师等)近期纷纷流向初创公司,如 OpenAI。这可能是谷歌文化弱化的迹象。
想象一下,如果搜索领域的竞争导致谷歌股票持续下滑,RSU(限制性股权)的价值远远低于预期,这将对员工的士气与忠诚度产生什么影响?
或者,由于必应正在争夺市场份额,同时抬升了谷歌现有的苹果专属协议,搜索业务不再是无尽的摇钱树,那又会如何?谷歌是否会被迫勒紧裤腰带,运营包括谷歌云在内的亏损业务?
8. 时延
谷歌的 Bard 作为一个相对较小的模型,其响应时间相对较低。此外,谷歌内部拥有一个极具潜力的 PaLM 模型,但目前尚无法部署。
即使时延达到 2000 毫秒(常规搜索的 4 倍,包含网络延迟与 20 倍的处理时间),PaLM 仍只能处理 60 个 token 的输入(约 240 个字符)和 20 个 token 的输出(约 80 个字符)。即使在 64 个 TPUv4 上并行运行,利用率始终只有约 35%。
更重要的是,LLM 需要在搜索堆栈的非时间敏感部分使用。此外,尽管时延可能更高,但在堆栈的这些部分,batch size 越大,实现的利用率就越高。
除了较低的时延标准,增大上下文窗口(context window)也是 LLM 融入搜索面临的最大挑战之一。未来,面向用户的模型和 AI 芯片的重点在于扩展它们的上下文窗口,以便更好地传递先前模型或源材料的信息。
从推理成本来看,扩展序列长度的成本也非常高,可能会进一步扩大成本结构。因此,在实时查询方面,围绕上下文窗口进行多种优化是至关重要的。在爬虫和索引阶段,可以最大化上下文窗口,以提供更多的源材料,从而达到尽可能高的质量标准。
这可以在堆栈的实时查询部分应用更小的模型,减少搜索及上下文窗口的需求,从而减小时延并压缩响应时间。
9. 整个搜索堆栈中的 LLM 实现
观察微软如何同样应用这些技术,为一些高端企业提供搜索和对话式 AI 助手的服务,这也是值得关注的议题。如何在运营和基础设施层面构思一个新的搜索堆栈,并为之铺路,也显得尤为重要。
当然,谷歌依然拥有其 Android、YouTube、地图、购物、航班和照片等业务模块,在这些领域里,微软几乎难以匹敌。因此无论如何,这些业务模块都将确保谷歌在搜索市场中的领先地位。