多模态版ChatGPT,拿下视觉语言新SOTA, 代码已开源

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

2022年流行“文生图”模型,而2023年则兴起了“图生文”模型。

机器学习工程师Daniel Bourke表示,把关注重点反转过来确实是个亮点!最新发布的“图生文”模型在网络上迅速走红,其出色的表现引发了众多网友的转发和点赞。

这种新型AI不仅具备基本的“看图说话”功能,还可以写情诗、解读剧情、为图片中的角色设计对话等等,表现相当出色。

例如,当你在网上看见诱人的美食,只需将图片发给它,它便能立即识别出必要的食材和烹饪步骤。

甚至对于一些列文虎克的细节,它也能看得清清楚楚。

当被询问如何从图片中倒着的房子里逃离时,AI的幽默回复是:侧面不是有滑梯嘛!

这款新的AI名为BLIP-2(Bootstrapping Language-Image Pre-training 2),且目前代码已开源。

最重要的是,与以往的研究不同,BLIP-2采用的是一种通用的预训练框架,因此可以轻松对接各种语言模型。

有网友已经开始畅想将其与ChatGPT结合后的强大应用。

有作者之一的Steven Hoi表示,BLIP-2未来将成为“多模态版ChatGPT”。

那么,BLIP-2的神奇之处还有哪些呢?让我们来仔细了解。

理解能力卓越

BLIP-2的功能非常多样化。

用户只需提供一张图片,即可与其对话,提出看图讲故事、推理、生成个性化文本等各种要求,均能满足。

举个例子,BLIP-2不仅能够轻松识别出图片中的长城景点,还能介绍其历史背景:

“中国的长城是公元前221年秦始皇为保护帝都而建造的,旨在抵御北方侵略。”

若给定一张电影剧照,BLIP-2不仅能识别该画面来自哪部电影,还能提及故事的结局,比如:“泰坦尼克号沉没,男主淹死。”

在对人类情感的把握上,BLIP-2同样表现出色。

当被问到图片中的男性表情及背景时,BLIP-2作出恰到好处的回应:“他害怕那只鸡,因为它正朝他飞来。”

更为神奇的是,在许多开放性问题上,BLIP-2的表现也十分优异。

让它根据下图生成一句浪漫的话,它的回答是:“爱情如日落,难以预见其来临,却如美丽的瞬间般珍贵。”

这不仅显示了其理解能力,更显示了其文学素养之高。

让BLIP-2为图片中的两只动物生成对话,它也能轻松处理傲娇猫猫与憨态可掬的狗狗之间的设定:

猫:嘿,狗狗,我能骑在你背上吗?
狗:当然,为什么不呢?
猫:我已经厌倦在雪地里走了。

那么,BLIP-2如此强大的理解背后,其实现原理又是什么呢?

多种视觉语言任务中实现新SOTA

考虑到大规模模型的端到端训练成本逐渐上升,BLIP-2采用了通用且高效的预训练策略:

通过现成的冻结预训练图像编码器和语言模型,引导视觉语言的预训练过程。

这使得每个人都可以选择自己想使用的模型进行接入。

为弥补不同模态之间的差距,研究人员提出了一个轻量级的查询Transformer,并分为两个阶段进行预训练:

第一阶段通过冻结图像编码器引导视觉语言表示学习;第二阶段则将视觉信息引导至冻结的语言模型,以学习语言生成。

为了测试BLIP-2的性能,研究人员在零样本图像-文本生成、视觉问答、图像-文本检索和图像字幕等任务上对其进行了评估。

最终结果显示,BLIP-2在多项视觉语言任务中均实现了SOTA(State-of-the-Art)。

例如,BLIP-2在zero-shot VQAv2上比Flamingo 80B高出8.7%,且训练参数减少了54倍。

显而易见,强大的图像编码器或语言模型的引入将进一步提升其性能。

值得一提的是,研究人员在论文最后也提到BLIP-2存在一个不足之处,即缺乏上下文学习能力:

每个样本只包含一个图像-文本对,当前尚无法学习同一序列中多个图像-文本对之间的关系。

研究团队

BLIP-2的研发团队来自Salesforce Research。

第一作者为Junnan Li,他也是一年前推出BLIP的第一作者。

目前,他是Salesforce亚洲研究院的高级研究科学家,曾在香港大学本科毕业并于新加坡国立大学获得博士学位。

他的研究领域涉及自我监督学习、半监督学习、弱监督学习及视觉-语言等多个方面。

感兴趣的小伙伴们可以通过以下链接获取BLIP-2的论文和GitHub代码:

论文链接
BLIP-2论文

GitHub链接
BLIP-2 GitHub

滚动至顶部