GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发

最近，GPT-4一直悄然更新，新增了多模态和语音交互等功能。然而，与年初OpenAI每次发布新功能时引发的热烈反响相比，现在GPT-4的声量似乎有些减弱。或许是因为担心过于耀眼的产品发布会带来监管和法律上的麻烦，因此在发布GPT-4后的七个月间，OpenAI除了3周前更新的文生图模型DALL-E 3外，官方并没有公开推出新产品或功能。

不过，OpenAI总裁Greg Brockman在社交媒体X（推特）上频繁转发利用新版GPT-4实现的各种创意应用。他通过GPT-4V的多模态能力和编码能力，将书本上的数学公式直接转化为Python代码。

使用刚更新不久的语音功能，有人开始把GPT-4当成商务谈判的教练进行模拟练习。帝国理工学院商学院的学习设计师在评述中提到，他们已经开始利用GPT-4的语音功能来设计MBA培训课程。

此外，利用集成的DALL-E 3，游戏设计师也可以轻松生成背景故事和概念艺术图。例如，只需几行提示，便可以生成一个描绘飞龙世界的文字描述和概念图。甚至可以使用DALL-E 3生成想要的GIF文件，展示像让一颗玉米变成爆米花，或者一只跳舞的小狗等有趣的场景。

让我们一起来看看如何利用GPT-4来实现这一系列功能。

GPT-4理综版

网友们发现，只需通过截图，便可将几乎任何数学公式转化为Python代码。虽然模型仍然存在一定的错误可能性，使用者仍需仔细检查代码的准确性。例如，在截图中的第六行代码「d_hat(i, j)」应为「d_hat(i)」。尽管如此，网友们对这一功能的评价依然相当高。

一位MIT的博士、AI初创企业的创始人认为，GPT-4在没有额外上下文的情况下可能无法识别函数，但它确实理解自己在做什么，称之为“非常酷”。另一位开发金融AI工具的开发者则表示，这个应用案例非常出色，并给出了两个具体的用例：一是可截图复杂数学方程，快速运行；二是可以截屏任何内容，由GPT生成相应的UI代码。此外，GPT-4还可以直接读取分子式并输出制备方法，甚至给出耳机电路图的组装步骤。

借助其对多模态的良好支持、编码能力和广博的知识面，GPT-4V能够组合出无数使用方案。

生成龙与魔法的世界

另一位网友分享了他们利用ChatGPT创造一个与龙相关的奇幻世界的过程。GPT-4生成了包括龙的概念、解剖结构及栖息地的详细内容。

首先，用户需要指定所需的图像样式。他们希望获得技术信息图表风格的美术效果，使用以下提示描述：
“Can you generate me a technical engineer’s drawing of a dragon, with labels of its various parts? Use a wide aspect ratio：”
于是，得到了令人满意的结果。

接着，用户让GPT-4生成龙头的特写和栖息地的环境原画。如果结果不满意，可以进一步细化要求，寻求更完美的效果。作为游戏设计师，这种灵活性让他们能直接获得可用的结果。

另一位网友受到启发，生成了一个关于藏红花的介绍：
“Can you generate me a technical engineer’s drawing of a saffron, with labels of its various parts? Use a wide aspect ratio。”
结果得到了藏红花的结构图，并随后生成了结构图的特写和远景图片，甚至包括藏红花的剖面图。

网友们展示了GPT-4的巨大潜力，例如非常复杂的潜艇结构图、高达的详细结构示意图、各部分的详细结构图等，许多网友直呼“完全停不下来”。

GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发

GPT-4理综版

生成龙与魔法的世界

相关文章