苹果公司近日宣布了他们的多模态大型语言模型(MLLM)研究成果,并且这一成果标志着他们在生成式人工智能(GenAI)领域的重要进展。在一篇署名多位作者的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式介绍了他们的多模态大模型研究成果。这个模型被称为MM1,具有高达300亿的参数,由密集模型和混合专家(MoE)变体组成。

MM1的关键成果和设计准则:
- 模型架构探索:
- 研究者探讨了不同的预训练图像编码器,并且研究了将LLM与这些编码器连接的多种方法。
- 使用了ViT-H模型,分辨率为378x378px,并在DFN-5B上使用CLIP目标进行预训练。
- 预训练数据选择:
- 使用45%的图像-文本交错文档、45%的图像-文本对文档和10%的纯文本文档来保持零样本和少样本的性能。
- MoE的应用:
- 通过在语言模型的FFN层添加更多专家来扩展密集模型。
- 苹果的MoE模型(3B-MoE和6B-MoE)在几乎所有基准测试中比密集模型表现更好。
- 监督微调实验:
- 在不同数据集中进行监督微调,表现优异。
- MM1-3B-Chat和MM1-7B-Chat优于同规模的其他模型,尤其在VQAv2、TextVQA、ScienceQA和其他基准测试中表现突出。
- 未来展望:
- MM1在上下文预测、多图像和思维链推理等方面表现出色。
- MM1在指令调优后展现出强大的少样本学习能力。
苹果公司的这一研究成果标志着他们在多模态领域的重要进展,也为未来可能推出的文生图产品奠定了基础。在多模态预训练方面,MM1在各项基准测试中都表现出了竞争力,展现出了其强大的性能和潜力。在未来,我们可以期待苹果基于MM1模型推出更多创新产品,让我们拭目以待。
暂无评论...