近期社交媒体上流传着一张关于GPT4.5更新的截图,表明其最大的惊喜可能在于处理3D和视频的能力。这引发了人们对于语言模型是否能够通过音频和3D模型来进行跨模态推理的思考。而在这个领域,最新的研究成果之一就是由宾夕法尼亚大学、Salesforce研究院和斯坦福大学联合研究团队提出的X-InstructBLIP框架。

背景
跨模态推理是当今多模态大模型研究的热点之一。人类天生利用多种感官解读周围环境,而通过让人工智能体具备跨模态推理能力,可以使系统更全面地理解环境,从而应对仅有单个模态导致难以辨别模式和执行推理的情况。这催生了多模态语言模型(MLM),其基于大型语言模型(LLM)的能力,将其扩展到静态视觉领域。
X-InstructBLIP框架
最新的研究成果,X-InstructBLIP框架,提供了一种可扩展的解决方案,让模型可以在学习单模态数据的同时掌握跨模态推理。相较于之前的方法,X-InstructBLIP无缝整合了多种模态,同时不需要使用联合模态数据集,保留了跨模态任务的执行能力。
方法
X-InstructBLIP采用了Q-Former模块,使用了来自BLIP-2的图像-文本预训练权重进行初始化,并在单模态数据集上进行微调,将来自不同模态嵌入空间的输入映射到一个冻结的LLM。为了克服某些模态缺乏指令微调数据的问题,研究团队提出了一种三阶段查询数据增强技术,使用开源LLM从字幕描述数据集中提取指令微调数据。
结果
X-InstructBLIP在跨模态推理任务上表现出了显著的能力。定量分析显示,其性能与现有的单模态模型相当,并在跨模态任务上展现出涌现能力。为了量化和检验这种涌现能力,研究团队构建了DisCRn,一个自动收集和调整的判别式跨模态推理挑战数据集。该数据集要求模型跨模态分辨两个实体的性质,考虑它们在输入中的相对位置,从而验证模型在跨模态推理方面的多功能性和可扩展性。
实验和结论
该研究团队在实验中研究了将X-InstructBLIP用作将跨模态整合进预训练冻结LLM的综合解决方案。X-InstructBLIP的构建使用了LAVIS软件库的框架,优化模型的硬件是8台A100 40GB GPU。实验结果显示,X-InstructBLIP在零样本性能方面表现出色,展现了其作为跨模态整合模型的潜力。
总体而言,X-InstructBLIP框架为语言模型在跨模态推理方面的发展提供了一种新的思路,为多模态大模型的研究贡献了有力的实证和方法。论文详细内容可查阅这里,GitHub地址为https://github.com/salesforce/LAVIS/。