为了让大家能够体验上ChatGPT4.0,小编找了能用GPT-4的网站,亲测好用!
www.chatgp4.com
在GPT-4发布的报道中,其强大的多模态能力令人印象深刻——它能够理解图片内容并给出描述,甚至在此基础上推断隐喻或预测下一时刻的发展。这标志着在追寻通用人工智能(AGI)的过程中,多模态能力显然是一个重要的方向。然而,遗憾的是,GPT-4的图片输入功能尚未全面开放,更无从了解其模型结构和训练方法的细节。
近日,中国科学院自动化所推出了一项有趣的研究,发布了多模态大规模语言模型X-LLM。该模型支持图像、语音和视频等多种模态作为输入,并展现出与GPT-4类似的性能。例如,当输入图像时,X-LLM能够识别图像中的位置和食物;输入视频时,它可以总结内容、检索电影片段名称,并基于视频和图像内容回答问题。论文中提到的一个例子中,用户请求X-LLM介绍输入的图片时,模型准确地理解这张图片与游戏《王者荣耀》相关,并提供了详细介绍。
从性能的角度来看,研究团队使用了30张模型未见过的图像,并针对与对话、详细描述和推理相关的90个问题进行测试。结果显示,相比于GPT-4,X-LLM在多模态环境中的评分达到了84.5%,表明其效果显著。
值得一提的是,这项研究还开源了相关代码和中文多模态指令数据集,为后续的研究提供了便利。项目主页和论文地址如下:
- 论文题目:X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
- 论文链接:点击查看
- 项目主页:点击查看
在深入论文的内容之前,让我们思考一个问题:GPT-4是如何获得其强大的多模态能力的?论文作者提出一个假设:“GPT-4的多模态能力源于其更加先进和庞大的模型结构,即GPT-4通过语言形式表达其他模态的内容。”这一假设表明,多模态数据需与语言数据对齐,以便为大模型提供多模态能力。在这一假设基础上,作者提出了X2L接口,即将多个单模态编码器与一个大规模语言模型(LLM)进行对齐。其中,图像接口I2L采用了BLIP-2中的Q-Former,视频接口V2L则重用了图像接口的参数,同时考虑了编码后的视频特征;语言接口S2L采用了CIF与Transformer结构,将语音转换为语言。
X-LLM的训练分为三个阶段:
- 转换多模态信息。
- 将X2L对齐到LLM。
- 将多模态数据整合到LLM中。
在具体实现中,多模态信息转换的三个接口设计如下:

- 图像接口:由Q-Formers和I-Adapter模块组成,旨在将图像特征转换为准语言嵌入序列。
- 视频接口:采样T帧视频,将每帧视为图像,构建准语言嵌入序列。
- 语言接口:由C-Former和S-Adaptor组成,处理语音编码后的特征,使其与LLM对齐。
在第二阶段,Q-Former的参数源于BLIP2,并经过1400万个中文图像-文本对数据集的训练,以适应中文LLM。语音接口则通过训练ASR数据实现与LLM的对齐。在整个过程中,Encoder部分与LLM部分均未参与训练,只有接口部分进行了调整。
最后,在第三阶段,论文使用多模态联合训练进一步提升X-LLM的性能。为此,作者构建了一个多模态指令数据集,包括图像-文本、语音-文本、视频-文本与图像-文本-语音数据,主要来源于MiniGPT-4(图像)、AISHELL-2(语音)和ActivityNet(视频)。
在实验方面,研究团队开发了聊天界面,与其他开源多模态大规模语言模型(如LLaVA和MiniGPT-4)进行比较。结果表明,X-LLM在解读和理解图片方面的能力相当出色,能够有效捕捉具有“中国特色”的信息。例如,当输入天安门的图片时,X-LLM正确识别出这是北京的故宫,并提供了历史相关信息,而其他模型仅识别出普通的“宫殿”和“旗帜”。
同时,X-LLM还能够准确理解语音信息,在接收到关于某张“照片”的口述描述时,给予了合理的回应并推进了交流。在视频问答方面,X-LLM也展现了出色的能力,对于游动水母的视频,能够准确生成标题并附上文字描述。
有趣的是,作者发现训练于英文数据集的Q-former参数能够迁移至其他语言(如汉语),并依旧保持有效性。这一发现极大增强了使用英文图像文本数据和相应模型参数迁移到其他语言训练的有效性,为其他语言的多模态模型训练提供了可能性。
通过这篇研究,我们或许可以展望多模态大模型的光明未来。回到开头,多模态必然是实现AGI的必经之路。那么,是否能以语言为基准来统一多模态呢?未来的研究将给出答案。