最近,GPT-4一直悄然更新,新增了多模态和语音交互等功能。然而,与年初OpenAI每次发布新功能时引发的热烈反响相比,现在GPT-4的声量似乎有些减弱。或许是因为担心过于耀眼的产品发布会带来监管和法律上的麻烦,因此在发布GPT-4后的七个月间,OpenAI除了3周前更新的文生图模型DALL-E 3外,官方并没有公开推出新产品或功能。
不过,OpenAI总裁Greg Brockman在社交媒体X(推特)上频繁转发利用新版GPT-4实现的各种创意应用。他通过GPT-4V的多模态能力和编码能力,将书本上的数学公式直接转化为Python代码。
使用刚更新不久的语音功能,有人开始把GPT-4当成商务谈判的教练进行模拟练习。帝国理工学院商学院的学习设计师在评述中提到,他们已经开始利用GPT-4的语音功能来设计MBA培训课程。
此外,利用集成的DALL-E 3,游戏设计师也可以轻松生成背景故事和概念艺术图。例如,只需几行提示,便可以生成一个描绘飞龙世界的文字描述和概念图。甚至可以使用DALL-E 3生成想要的GIF文件,展示像让一颗玉米变成爆米花,或者一只跳舞的小狗等有趣的场景。
让我们一起来看看如何利用GPT-4来实现这一系列功能。
GPT-4理综版
网友们发现,只需通过截图,便可将几乎任何数学公式转化为Python代码。虽然模型仍然存在一定的错误可能性,使用者仍需仔细检查代码的准确性。例如,在截图中的第六行代码「d_hat(i, j)」应为「d_hat(i)」。尽管如此,网友们对这一功能的评价依然相当高。
一位MIT的博士、AI初创企业的创始人认为,GPT-4在没有额外上下文的情况下可能无法识别函数,但它确实理解自己在做什么,称之为“非常酷”。另一位开发金融AI工具的开发者则表示,这个应用案例非常出色,并给出了两个具体的用例:一是可截图复杂数学方程,快速运行;二是可以截屏任何内容,由GPT生成相应的UI代码。此外,GPT-4还可以直接读取分子式并输出制备方法,甚至给出耳机电路图的组装步骤。
借助其对多模态的良好支持、编码能力和广博的知识面,GPT-4V能够组合出无数使用方案。
生成龙与魔法的世界
另一位网友分享了他们利用ChatGPT创造一个与龙相关的奇幻世界的过程。GPT-4生成了包括龙的概念、解剖结构及栖息地的详细内容。
首先,用户需要指定所需的图像样式。他们希望获得技术信息图表风格的美术效果,使用以下提示描述:
“Can you generate me a technical engineer’s drawing of a dragon, with labels of its various parts? Use a wide aspect ratio:”
于是,得到了令人满意的结果。
接着,用户让GPT-4生成龙头的特写和栖息地的环境原画。如果结果不满意,可以进一步细化要求,寻求更完美的效果。作为游戏设计师,这种灵活性让他们能直接获得可用的结果。
另一位网友受到启发,生成了一个关于藏红花的介绍:
“Can you generate me a technical engineer’s drawing of a saffron, with labels of its various parts? Use a wide aspect ratio。”
结果得到了藏红花的结构图,并随后生成了结构图的特写和远景图片,甚至包括藏红花的剖面图。
网友们展示了GPT-4的巨大潜力,例如非常复杂的潜艇结构图、高达的详细结构示意图、各部分的详细结构图等,许多网友直呼“完全停不下来”。