本文介绍了来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出的一项创新性研究——Vision Mamba(Vim)。这一全面包围 Transformer 的 Mamba号称在推出不到两个月内就取得了高性能的视觉版。

Vision Mamba的背景
Vision Mamba(Vim)的提出源于研究者对状态空间模型(state space model,SSM)的兴趣增加。不同于Transformer中自注意力机制计算量随上下文长度增加呈平方级增长的情况,SSM擅长捕捉远程依赖关系,因此备受研究者关注。
在Mamba提出之前,一些基于SSM的方法如线性状态空间层(LSSL)、结构化状态空间序列模型(S4)、对角状态空间(DSS)和S4D都被研究者提出,用于处理各种序列数据,尤其在建模远程依赖关系方面。
Vision Mamba的性能与优势
Vision Mamba(Vim)在ImageNet分类任务、COCO对象检测任务和ADE20k语义分割任务上,相较于成熟的视觉Transformers如DeiT,展现出更高的性能。例如,在对分辨率为1248×1248的图像进行批量推理提取特征时,Vim比DeiT快2.8倍,并节省了86.8%的GPU内存。这表明Vim能够克服对高分辨率图像执行Transformer式理解时的计算和内存限制,具有成为视觉基础模型的下一代骨干的巨大潜力。
Vision Mamba的架构与方法介绍
Mamba的提出带动了研究者对状态空间模型的兴趣增加。不同于Transformer中的自注意力机制,SSM擅长捕捉远程依赖关系,促使研究者提出了一些基于SSM的方法,如LSSL、S4、DSS和S4D。Mamba将时变参数纳入SSM中,并提出了一种硬件感知算法来实现高效的训练和推理。
为了在视觉任务中探索基于纯SSM的通用骨干网络,研究者提出了Vision Mamba(Vim)块。Vim块结合了双向SSM和位置嵌入,用于数据依赖的全局视觉上下文建模和位置感知视觉识别。
Vision Mamba的实验结果
Vision Mamba(Vim)在ImageNet-1K数据集上进行了基准测试,与基于ConvNet、Transformer和SSM的骨干网络进行了比较。在图像分类任务中,Vim表现出更优越的性能,与ResNet相比,Vim-Small的top-1准确率达到80.3,比ResNet50高4.1个百分点。与传统的自注意力ViT相比,Vim在参数数量和分类准确率方面都有相当大的优势。
总结
Vision Mamba(Vim)的提出标志着对状态空间模型在计算机视觉领域的深入研究。其优越的性能和高效的推理使其成为视觉任务中的一项重要技术。未来,Vision Mamba有望成为视觉基础模型的下一代骨干,为高分辨率下游视觉应用和长序列多模态应用提供了有力的支持。
论文地址:Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model