GPT-4将于下周发布,微软德国CTO:将提供完全不同的可能性

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

GPT-4 即将到来,带来全新的多模态体验

下周,备受期待的GPT-4将正式发布。3月9日,微软德国首席技术官安德烈亚斯·布劳恩(Andreas Braun)在一场名为“AI in Focus – Digital Kickoff”的活动中透露,GPT-4将推出多模态模型。这一消息并不令人意外,因为自3月初发布Kosmos-1以来,微软一直在与OpenAI合作进行多模态的优化。

在此前的报道中,《财富》杂志提到,OpenAI在其GPT-4的beta测试版中采用了更强大的大语言模型。相比于前一代,GPT-4或许不会在参数数量上有显著提升,而是在其他方面进行优化;同时,OpenAI也在开发一款可以通过文字生成视频的AI模型。

今年1月,OpenAI首席执行官山姆·阿特曼(Sam Altman)回应关于“GPT-4可能拥有100万亿参数”的猜测时表示,这纯属“胡说”。这也暗示,GPT-4的即将发布不单单是参数的增加,可能会在提升其他能力方面下功夫。

“我们将在下周推出GPT-4,这将是一个多模态模型,提供完全不同的可能性——比如视频,”布劳恩说。

布劳恩指出,大型语言模型是“游戏规则的改变者”,因为它们让机器能够理解自然语言,并以统计方式处理以往仅能由人类解读的内容。该技术现已发展到基本“适用于所有语言”的程度:“您可以用德语提问,而得到意大利语的回答。”通过多模态的应用,微软与OpenAI将使模型更加全面。

GPT-4的多模态转向预示着未来将在输入和输出中引入图像、视频等形式,这可能在业内产生颠覆性的影响。OpenAI之前推出的DALL-E 2和CLIP便是对此方向的一次成功尝试。

近期,微软在多模态领域频繁发力,推出全能型人工智能模型Kosmos-1。与仅限于文本内容的ChatGPT不同,Kosmos-1是一种多模态大型语言模型(MLLM),能够同时理解文字与图像内容,并且未来将整合更多输入方式,如音频和视频。

此外,微软还在3月8日推出了Visual ChatGPT,融合了多个视觉基础模型,使用户能够通过以下方式与ChatGPT互动:

  1. 不仅发送和接收语言,还可以发送和接收图像;
  2. 提供复杂的视觉问题或视觉编辑指令,这需要多个AI模型的协同工作及多步骤完成;
  3. 提供反馈并要求纠正结果。

微软研究人员在预印本网站arXiv上发表的论文中指出:“ChatGPT吸引了跨领域的关注,因为它提供的语言界面具有强大的对话能力和丰富的推理能力。然而,由于ChatGPT仅用语言数据进行训练,它目前无法处理或生成图像。与此相对,视觉基础模型如Visual Transformers或Stable Diffusion虽表现出强大的视觉理解和生成能力,但它们只是特定任务的‘专家’,具有固定的输入和输出形式。”

在活动中,布劳恩与微软德国CEO玛丽安娜·雅尼克(Marianne Janik)对人工智能对企业的颠覆效应进行了深入探讨。雅尼克强调了人工智能创造价值的潜力,并提到这是一个时代的转折点——当前的AI发展阶段与ChatGPT的出现堪称“iPhone时刻”。她表示,这并不是为了取代工作,而是以全新的方式处理重复性任务。

颠覆并不一定意味着工作的减少。雅尼克强调,“需要大量专家来实现人工智能的价值创造”。传统工作正在发生变化,新的职业因丰富的可能性而应运而生。她建议企业建立内部的“能力中心”,培训员工利用人工智能,并形成集成项目创意。同时,也应考虑老旧观念的转变。

雅尼克还重申,微软不会使用客户的数据来训练模型(然而,根据其ChatGPT政策,这一点过去和现在都不适用于他们的研究伙伴OpenAI)。她提到“民主化”,承认这意味着这些模型在微软产品中的直接可用性,尤其是在Azure平台、Outlook和Teams中的广泛应用。

GPT-4究竟将展现怎样的能力?让我们拭目以待。

滚动至顶部