苹果的多模态大型语言模型研究成果与未来展望

AI快讯 2年前 (2024) admin

2,945 0 4

苹果公司近日宣布了他们的多模态大型语言模型（MLLM）研究成果，并且这一成果标志着他们在生成式人工智能（GenAI）领域的重要进展。在一篇署名多位作者的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，苹果正式介绍了他们的多模态大模型研究成果。这个模型被称为MM1，具有高达300亿的参数，由密集模型和混合专家（MoE）变体组成。

MM1的关键成果和设计准则：

模型架构探索：
- 研究者探讨了不同的预训练图像编码器，并且研究了将LLM与这些编码器连接的多种方法。
- 使用了ViT-H模型，分辨率为378x378px，并在DFN-5B上使用CLIP目标进行预训练。
预训练数据选择：
- 使用45%的图像-文本交错文档、45%的图像-文本对文档和10%的纯文本文档来保持零样本和少样本的性能。
MoE的应用：
- 通过在语言模型的FFN层添加更多专家来扩展密集模型。
- 苹果的MoE模型（3B-MoE和6B-MoE）在几乎所有基准测试中比密集模型表现更好。
监督微调实验：
- 在不同数据集中进行监督微调，表现优异。
- MM1-3B-Chat和MM1-7B-Chat优于同规模的其他模型，尤其在VQAv2、TextVQA、ScienceQA和其他基准测试中表现突出。
未来展望：
- MM1在上下文预测、多图像和思维链推理等方面表现出色。
- MM1在指令调优后展现出强大的少样本学习能力。

苹果公司的这一研究成果标志着他们在多模态领域的重要进展，也为未来可能推出的文生图产品奠定了基础。在多模态预训练方面，MM1在各项基准测试中都表现出了竞争力，展现出了其强大的性能和潜力。在未来，我们可以期待苹果基于MM1模型推出更多创新产品，让我们拭目以待。

版权声明：admin 发表于 2024-03-16 10:37:20。
转载请注明：苹果的多模态大型语言模型研究成果与未来展望 | ai导航网

暂无评论

暂无评论...

苹果的多模态大型语言模型研究成果与未来展望

MM1的关键成果和设计准则：

开源便携式手部动捕系统——DexCap：革命性的机器人新生

哈工大联合度小满发布的智能剪枝算法SmartTrim：加速多模态模型推理

暂无评论