为了进一步提升多模态大模型在区域理解方面的能力,研究团队成功打造了一款引人瞩目的多模态模型——NExT-Chat。该模型不仅能够进行对话,还能够同时进行检测和分割,为图像处理领域带来了新的可能性。

模型亮点
NExT-Chat最大的亮点之一是引入了位置输入和输出的能力。位置输入能够根据指定的区域回答问题,而位置输出则可以准确地定位对话中提及的物体。这使得模型在处理复杂的定位问题时表现得游刃有余。
除了物体定位,NExT-Chat还具备描述图像或其部分的能力。分析完图像内容后,模型能够利用获取的信息进行推理,进一步提高了其在多模态任务中的灵活性。
评估与实验结果
为了准确评估NExT-Chat的性能,研究团队进行了多个任务数据集上的测试。在指代表达式分割(RES)任务上,NExT-Chat展现出了卓越的性能,甚至超过了一系列有监督模型。在REC任务、图像幻觉任务以及区域描述任务上,NExT-Chat都取得了最优的效果,显示出其在多模态领域的全面实力。
模型架构与训练流程
NExT-Chat整体采用了LLaVA架构,通过Image Encoder编码图像信息并输入LLM进行理解。为了解决LLM在何时使用语言LM head和位置解码器的问题,模型引入了一个全新的token类型来标识位置信息。
在模型的训练过程中,采用了三个阶段的流程:
- 基础框输入输出训练: 使用包含框输入输出的数据集进行预训练,建立模型的基本框输入输出能力。
- LLM指令遵循能力调整: 通过指令微调数据,优化模型对人类要求的响应,输出更人性化的结果。
- 赋予分割能力: 利用以上两阶段训练的位置建模能力,扩展到分割任务上,通过少量标注数据迅速获得良好的分割能力。
这样的训练流程不仅丰富了检测框数据,还降低了训练成本,使得NExT-Chat在更大范围的任务上都能取得优异的表现。
创新的位置建模方式:pix2emb方法
NExT-Chat在位置建模方面采用了一种创新的方式——pix2emb方法。与传统的pix2seq方式不同,pix2emb通过对应的encoder和decoder进行编码和解码位置信息,而不是依赖LLM本身的文字预测头。
这种方式的优势在于模型输出格式更易于扩展到更复杂的形式,如分割掩模。同时,模型可以更容易地与任务中已有的实践方式相结合,为位置建模提供更大的灵活性。
总体而言,NExT-Chat的出现为多模态大模型的发展注入了新的活力,其创新的位置建模方式和全面的实验结果表明,这一模型在图像处理领域有着广泛的应用前景。随着技术的不断演进,我们可以期待看到更多多模态模型的涌现,为人工智能领域带来更多惊喜。