近十年来,谷歌一直是人工智能领域的领头羊,但在ChatGPT颠覆行业的这一年里,谷歌却迟迟没有行动,面临的压力可谓不小。如今,谷歌终于迈出了重要一步。
美东时间12月6日,谷歌CEO桑达尔·皮查伊宣布,迄今为止“规模最大、功能最强”的AI大模型Gemini 1.0版正式上线,标志着谷歌人工智能新时代的开启。这个消息一经发布,便引起了科技圈的广泛关注,Gemini的强大性能令华尔街为之兴奋。12月7日,谷歌母公司Alphabet的股价上涨5.31%,收盘价136.93美元,总市值达1.72万亿美元,创下8月底以来的最佳表现。
Gemini的发布并非毫无前兆。在6月份的I/O开发者大会上,皮查伊就曾透露将推出大模型的计划,并表示该产品代表着AI模型的巨大飞跃,预计将影响谷歌旗下几乎所有的产品,具有重要意义。皮查伊强调,“强大之处在于,人们可以研究一种底层技术,不断进行优化,最终反馈到产品上。”
根据谷歌的介绍,Gemini在MMLU(大规模多任务语言理解)测试中的得分达到了90.0%,成为第一个在MMLU测试中超越人类专家的模型。
大模型热潮再起
本次发布的Gemini(中文译为“双子座”)是一个原生的多模态大模型,包含三种不同规模的版本——Ultra、Pro和Nano。Gemini Ultra是功能最强大的版本,适用于复杂任务,如数据中心和企业级应用,预计明年推出,并被视为GPT-4的竞争对手。Gemini Pro则能够扩展多种任务,为谷歌的整体AI服务提供支撑,包括运营谷歌推出的大型语言模型聊天机器人Bard,其性能优于GPT-3.5。Gemini Nano是轻量级版本,适用于特定任务和端侧设备,包括手机和PC等。
回顾一年前,OpenAI推出ChatGPT,立即引爆了人工智能行业,使得大模型成为风口,相关概念股大幅上涨,随之而来的则是各大科技巨头纷纷推出自家的大模型,面临与OpenAI的持续比较。其中,谷歌作为AI领域的传统领军者,却在大模型领域缺乏亮眼的产品,负面声音不断。
面对OpenAI的优秀表现和ChatGPT的快速迭代,谷歌终于准备好了反击。借助Gemini,谷歌开启了大模型新时代。那么,相较于ChatGPT,谷歌的新模型究竟具有什么优势呢?
根据谷歌的说法,Gemini在多个方面超越了ChatGPT。谷歌表示,已对Gemini系统进行了彻底分析并进行了基准测试,Ultra版本在32个广泛使用的学术基准测试中,有30个表现超越目前的最佳成果(SoTA),如多语言处理和生成Python代码的能力。
简而言之,Gemini的明显优势在于它能理解视频和音频,并能够进行互动,这一点是OpenAI相对薄弱的。OpenAI侧重于图像和语音的训练,而谷歌则希望打造一个“综合性”的强大产品,不仅能输出文本,还能高效处理图像、视频和音频,涵盖人像动作、触感等更高级的参数,谷歌对此寄予厚望。
当然,基准测试只是基准测试,Gemini能力的最终考验在于它是否能与谷歌旗下的产品完美结合,更好地服务用户并提升查找信息、编写代码、音视频等方面的使用体验,这才是最为重要的。
大模型的未来
谷歌称,在项目之初,就已将目标定位为多感官模型,这与专注于文本和图像的大模型开发的OpenAI形成鲜明对比。尽管OpenAI开发的DALL-E图像生成模型和Whisper语言模型的表现已然出色,但在音视频领域的多模态大模型仍是市场亟需的。
谷歌正试图开发这种通用模型,其中还包括训练Gemini的编程能力。与Gemini同步推出的AlphaCode 2代码生成系统,是一款基于Gemini驱动的AI编程工具,性能较前代提升了50%。换言之,谷歌不仅希望在应用层面超越同行,还希望在底层模型开发上超过对手。
在应用层面,谷歌的新产品同样吸引眼球。随着技术的不断突破,多模态应用的商业化落地可能成为市场关注的焦点,相关的游戏、软件以及影视行业都有望快速渗透并受益。
最近大火的Pika就是一款通过文字和图片生成视频的AIGC应用,只需输入指令即可将文字转化为视频。作为当前AI生成视频应用中的明星产品,Pika的创始人通过该产品荣膺家族公司连续6个涨停板。
尽管谷歌的新产品引人瞩目,但并非所有声音都是赞誉。部分业内人士对Gemini的“夸大宣传”提出质疑,指出谷歌发布的产品演示视频并非实时录制,而是经过剪辑的展示。谷歌随后在一篇博客文章中承认,演示中使用的效果需要依赖静态图片和多段提示词拼接实现。
尽管展示效果存在争议,市场对谷歌仍持乐观态度,毕竟谷歌的实力不容小觑。
尾声
关于谷歌的Gemini究竟是否如其宣称的那样强大,我们可以持保留态度,静待其后续应用的表现。值得关注的是,谷歌希望通过海量数据的收集与大模型的不断迭代,使其产品能够更贴近人类的思维和意识。
在这一过程中,谷歌承认可能存在数据偏见和算法歧视等问题。大模型训练的风险,包括媒体攻击、算法歧视等,尤其是谷歌追求的目标——通用人工智能,是许多科技巨头不敢轻言触碰的领域。
通用人工智能意味着AI将更贴近人的意识与想法。去年夏天,谷歌一名工程师声称公司的LaMDA系统可能具备自我意识,随后因违规保密政策被停职,随之引发了关于人工智能是否能产生意识的广泛讨论。
针对新产品的发布,谷歌表示一直在努力确保Gemini的安全与责任,包括持续进行内部和外部的测试。皮查伊强调,确保数据安全可靠对企业至关重要,生成式AI固然能带来盈利,但可能伴随难以预测的问题,例如媒体攻击事件的发生。
皮查伊不止一次提到,人工智能对人类的改变将比火或电更具变革性,而谷歌显然将Gemini视作这一变革的起点。诚然,Gemini未必会改变世界,也可能只是帮助谷歌在生成式人工智能的竞争中追赶OpenAI,但这份期待,寄托着谷歌及整个行业的未来。
然而,对于用户和行业的未来,我们或许需要更加深思。企业应对此发展速度保持适度的限制,关于人工智能发展的节奏是否应如某些大佬所言加以限制,这无疑是值得深入探讨的问题。