谷歌出手，嗨爆大模型

近十年来，谷歌一直是人工智能领域的领头羊，但在ChatGPT颠覆行业的这一年里，谷歌却迟迟没有行动，面临的压力可谓不小。如今，谷歌终于迈出了重要一步。

美东时间12月6日，谷歌CEO桑达尔·皮查伊宣布，迄今为止“规模最大、功能最强”的AI大模型Gemini 1.0版正式上线，标志着谷歌人工智能新时代的开启。这个消息一经发布，便引起了科技圈的广泛关注，Gemini的强大性能令华尔街为之兴奋。12月7日，谷歌母公司Alphabet的股价上涨5.31%，收盘价136.93美元，总市值达1.72万亿美元，创下8月底以来的最佳表现。

Gemini的发布并非毫无前兆。在6月份的I/O开发者大会上，皮查伊就曾透露将推出大模型的计划，并表示该产品代表着AI模型的巨大飞跃，预计将影响谷歌旗下几乎所有的产品，具有重要意义。皮查伊强调，“强大之处在于，人们可以研究一种底层技术，不断进行优化，最终反馈到产品上。”

根据谷歌的介绍，Gemini在MMLU（大规模多任务语言理解）测试中的得分达到了90.0%，成为第一个在MMLU测试中超越人类专家的模型。

大模型热潮再起

本次发布的Gemini（中文译为“双子座”）是一个原生的多模态大模型，包含三种不同规模的版本——Ultra、Pro和Nano。Gemini Ultra是功能最强大的版本，适用于复杂任务，如数据中心和企业级应用，预计明年推出，并被视为GPT-4的竞争对手。Gemini Pro则能够扩展多种任务，为谷歌的整体AI服务提供支撑，包括运营谷歌推出的大型语言模型聊天机器人Bard，其性能优于GPT-3.5。Gemini Nano是轻量级版本，适用于特定任务和端侧设备，包括手机和PC等。

回顾一年前，OpenAI推出ChatGPT，立即引爆了人工智能行业，使得大模型成为风口，相关概念股大幅上涨，随之而来的则是各大科技巨头纷纷推出自家的大模型，面临与OpenAI的持续比较。其中，谷歌作为AI领域的传统领军者，却在大模型领域缺乏亮眼的产品，负面声音不断。

面对OpenAI的优秀表现和ChatGPT的快速迭代，谷歌终于准备好了反击。借助Gemini，谷歌开启了大模型新时代。那么，相较于ChatGPT，谷歌的新模型究竟具有什么优势呢？

根据谷歌的说法，Gemini在多个方面超越了ChatGPT。谷歌表示，已对Gemini系统进行了彻底分析并进行了基准测试，Ultra版本在32个广泛使用的学术基准测试中，有30个表现超越目前的最佳成果（SoTA），如多语言处理和生成Python代码的能力。

简而言之，Gemini的明显优势在于它能理解视频和音频，并能够进行互动，这一点是OpenAI相对薄弱的。OpenAI侧重于图像和语音的训练，而谷歌则希望打造一个“综合性”的强大产品，不仅能输出文本，还能高效处理图像、视频和音频，涵盖人像动作、触感等更高级的参数，谷歌对此寄予厚望。

当然，基准测试只是基准测试，Gemini能力的最终考验在于它是否能与谷歌旗下的产品完美结合，更好地服务用户并提升查找信息、编写代码、音视频等方面的使用体验，这才是最为重要的。

大模型的未来

谷歌称，在项目之初，就已将目标定位为多感官模型，这与专注于文本和图像的大模型开发的OpenAI形成鲜明对比。尽管OpenAI开发的DALL-E图像生成模型和Whisper语言模型的表现已然出色，但在音视频领域的多模态大模型仍是市场亟需的。

谷歌正试图开发这种通用模型，其中还包括训练Gemini的编程能力。与Gemini同步推出的AlphaCode 2代码生成系统，是一款基于Gemini驱动的AI编程工具，性能较前代提升了50%。换言之，谷歌不仅希望在应用层面超越同行，还希望在底层模型开发上超过对手。

在应用层面，谷歌的新产品同样吸引眼球。随着技术的不断突破，多模态应用的商业化落地可能成为市场关注的焦点，相关的游戏、软件以及影视行业都有望快速渗透并受益。

最近大火的Pika就是一款通过文字和图片生成视频的AIGC应用，只需输入指令即可将文字转化为视频。作为当前AI生成视频应用中的明星产品，Pika的创始人通过该产品荣膺家族公司连续6个涨停板。

尽管谷歌的新产品引人瞩目，但并非所有声音都是赞誉。部分业内人士对Gemini的“夸大宣传”提出质疑，指出谷歌发布的产品演示视频并非实时录制，而是经过剪辑的展示。谷歌随后在一篇博客文章中承认，演示中使用的效果需要依赖静态图片和多段提示词拼接实现。

尽管展示效果存在争议，市场对谷歌仍持乐观态度，毕竟谷歌的实力不容小觑。

尾声

关于谷歌的Gemini究竟是否如其宣称的那样强大，我们可以持保留态度，静待其后续应用的表现。值得关注的是，谷歌希望通过海量数据的收集与大模型的不断迭代，使其产品能够更贴近人类的思维和意识。

在这一过程中，谷歌承认可能存在数据偏见和算法歧视等问题。大模型训练的风险，包括媒体攻击、算法歧视等，尤其是谷歌追求的目标——通用人工智能，是许多科技巨头不敢轻言触碰的领域。

通用人工智能意味着AI将更贴近人的意识与想法。去年夏天，谷歌一名工程师声称公司的LaMDA系统可能具备自我意识，随后因违规保密政策被停职，随之引发了关于人工智能是否能产生意识的广泛讨论。

针对新产品的发布，谷歌表示一直在努力确保Gemini的安全与责任，包括持续进行内部和外部的测试。皮查伊强调，确保数据安全可靠对企业至关重要，生成式AI固然能带来盈利，但可能伴随难以预测的问题，例如媒体攻击事件的发生。

皮查伊不止一次提到，人工智能对人类的改变将比火或电更具变革性，而谷歌显然将Gemini视作这一变革的起点。诚然，Gemini未必会改变世界，也可能只是帮助谷歌在生成式人工智能的竞争中追赶OpenAI，但这份期待，寄托着谷歌及整个行业的未来。

然而，对于用户和行业的未来，我们或许需要更加深思。企业应对此发展速度保持适度的限制，关于人工智能发展的节奏是否应如某些大佬所言加以限制，这无疑是值得深入探讨的问题。

大模型热潮再起

大模型的未来

尾声

相关文章