GPT-4将于下周发布，微软德国CTO：将提供完全不同的可能性

GPT-4 即将到来，带来全新的多模态体验

下周，备受期待的GPT-4将正式发布。3月9日，微软德国首席技术官安德烈亚斯·布劳恩（Andreas Braun）在一场名为“AI in Focus – Digital Kickoff”的活动中透露，GPT-4将推出多模态模型。这一消息并不令人意外，因为自3月初发布Kosmos-1以来，微软一直在与OpenAI合作进行多模态的优化。

在此前的报道中，《财富》杂志提到，OpenAI在其GPT-4的beta测试版中采用了更强大的大语言模型。相比于前一代，GPT-4或许不会在参数数量上有显著提升，而是在其他方面进行优化；同时，OpenAI也在开发一款可以通过文字生成视频的AI模型。

今年1月，OpenAI首席执行官山姆·阿特曼（Sam Altman）回应关于“GPT-4可能拥有100万亿参数”的猜测时表示，这纯属“胡说”。这也暗示，GPT-4的即将发布不单单是参数的增加，可能会在提升其他能力方面下功夫。

“我们将在下周推出GPT-4，这将是一个多模态模型，提供完全不同的可能性——比如视频，”布劳恩说。

布劳恩指出，大型语言模型是“游戏规则的改变者”，因为它们让机器能够理解自然语言，并以统计方式处理以往仅能由人类解读的内容。该技术现已发展到基本“适用于所有语言”的程度：“您可以用德语提问，而得到意大利语的回答。”通过多模态的应用，微软与OpenAI将使模型更加全面。

GPT-4的多模态转向预示着未来将在输入和输出中引入图像、视频等形式，这可能在业内产生颠覆性的影响。OpenAI之前推出的DALL-E 2和CLIP便是对此方向的一次成功尝试。

近期，微软在多模态领域频繁发力，推出全能型人工智能模型Kosmos-1。与仅限于文本内容的ChatGPT不同，Kosmos-1是一种多模态大型语言模型（MLLM），能够同时理解文字与图像内容，并且未来将整合更多输入方式，如音频和视频。

此外，微软还在3月8日推出了Visual ChatGPT，融合了多个视觉基础模型，使用户能够通过以下方式与ChatGPT互动：

不仅发送和接收语言，还可以发送和接收图像；
提供复杂的视觉问题或视觉编辑指令，这需要多个AI模型的协同工作及多步骤完成；
提供反馈并要求纠正结果。

微软研究人员在预印本网站arXiv上发表的论文中指出：“ChatGPT吸引了跨领域的关注，因为它提供的语言界面具有强大的对话能力和丰富的推理能力。然而，由于ChatGPT仅用语言数据进行训练，它目前无法处理或生成图像。与此相对，视觉基础模型如Visual Transformers或Stable Diffusion虽表现出强大的视觉理解和生成能力，但它们只是特定任务的‘专家’，具有固定的输入和输出形式。”

在活动中，布劳恩与微软德国CEO玛丽安娜·雅尼克（Marianne Janik）对人工智能对企业的颠覆效应进行了深入探讨。雅尼克强调了人工智能创造价值的潜力，并提到这是一个时代的转折点——当前的AI发展阶段与ChatGPT的出现堪称“iPhone时刻”。她表示，这并不是为了取代工作，而是以全新的方式处理重复性任务。

颠覆并不一定意味着工作的减少。雅尼克强调，“需要大量专家来实现人工智能的价值创造”。传统工作正在发生变化，新的职业因丰富的可能性而应运而生。她建议企业建立内部的“能力中心”，培训员工利用人工智能，并形成集成项目创意。同时，也应考虑老旧观念的转变。

雅尼克还重申，微软不会使用客户的数据来训练模型（然而，根据其ChatGPT政策，这一点过去和现在都不适用于他们的研究伙伴OpenAI）。她提到“民主化”，承认这意味着这些模型在微软产品中的直接可用性，尤其是在Azure平台、Outlook和Teams中的广泛应用。

GPT-4究竟将展现怎样的能力？让我们拭目以待。

GPT-4将于下周发布，微软德国CTO：将提供完全不同的可能性

相关文章