苹果的多模态大型语言模型研究成果与未来展望

AI快讯 1年前 (2024) admin
2,759 0

苹果公司近日宣布了他们的多模态大型语言模型(MLLM)研究成果,并且这一成果标志着他们在生成式人工智能(GenAI)领域的重要进展。在一篇署名多位作者的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式介绍了他们的多模态大模型研究成果。这个模型被称为MM1,具有高达300亿的参数,由密集模型和混合专家(MoE)变体组成。

苹果的多模态大型语言模型研究成果与未来展望

MM1的关键成果和设计准则:

  1. 模型架构探索
    • 研究者探讨了不同的预训练图像编码器,并且研究了将LLM与这些编码器连接的多种方法。
    • 使用了ViT-H模型,分辨率为378x378px,并在DFN-5B上使用CLIP目标进行预训练。
  2. 预训练数据选择
    • 使用45%的图像-文本交错文档、45%的图像-文本对文档和10%的纯文本文档来保持零样本和少样本的性能。
  3. MoE的应用
    • 通过在语言模型的FFN层添加更多专家来扩展密集模型。
    • 苹果的MoE模型(3B-MoE和6B-MoE)在几乎所有基准测试中比密集模型表现更好。
  4. 监督微调实验
    • 在不同数据集中进行监督微调,表现优异。
    • MM1-3B-Chat和MM1-7B-Chat优于同规模的其他模型,尤其在VQAv2、TextVQA、ScienceQA和其他基准测试中表现突出。
  5. 未来展望
    • MM1在上下文预测、多图像和思维链推理等方面表现出色。
    • MM1在指令调优后展现出强大的少样本学习能力。

苹果公司的这一研究成果标志着他们在多模态领域的重要进展,也为未来可能推出的文生图产品奠定了基础。在多模态预训练方面,MM1在各项基准测试中都表现出了竞争力,展现出了其强大的性能和潜力。在未来,我们可以期待苹果基于MM1模型推出更多创新产品,让我们拭目以待。

版权声明:admin 发表于 2024-03-16 10:37:20。
转载请注明:苹果的多模态大型语言模型研究成果与未来展望 | ai导航网

暂无评论

暂无评论...