GPT-5：下一代多模态AI模型的崭新面貌

AI快讯 1年前 (2024) admin

1,488 0 6

近日，艾伦人工智能研究所发布了Unified-IO 2，这个新模型窥见了GPT-5的可能面貌。Unified-IO 2是第一个处理文本、图像、音频、视频和动作序列的模型，通过几十亿个数据点的训练，展现出了广泛的多模态能力。

艾伦人工智能研究所的第一代Unified-IO在处理图像和语言方面起到了先驱作用。在2022年6月左右，当OpenAI内部测试GPT-4时，第一代Unified-IO推出了。这预示着Unified-IO是对大规模AI模型的前瞻。

或许，正如Unified-IO 2所展示的，OpenAI或许正在内部测试GPT-5，并可能在未来几个月发布。这代新的AI模型预示着更广泛的学习能力，处理更多模态，以及对物体和机器人交互的基本理解。

Unified-IO 2使用了多达120多个数据集的600 TB的训练数据，涵盖了220个视觉、语言、听觉和动作任务。这个模型采用编码器-解码器架构，经过改进以稳定训练并有效利用多模态信号。

这个模型不仅能回答问题、撰写文本和分析内容，还能识别图像内容、生成图像描述，执行图像处理任务，生成音乐或声音，分析视频并回答相关问题。此外，通过机器人数据进行训练，还能生成机器人系统的动作序列。

在超过35个基准测试中，包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作等任务，Unified-IO 2表现出色，甚至有时超过了专用模型的表现。

为了统一多模态数据，研究人员使用了一系列技术来改进整个训练过程，包括对文本、图像、音频等不同模态的标记化和编码，以及对训练过程中的稳定性和可扩展性的优化。

模型的预训练损失稳定，通过不同模态的去噪和生成技术、感知器重采样器等方法提高了训练的稳定性。同时，对训练过程中的数据处理和多模态指令调优进行了精细的设计。

为了使模型适应不同模态的指令，研究人员构建了多模态指令调优数据集。同时，针对处理大量多模态数据的挑战，使用了打包技术和动态排列流式传输的启发式算法，从而提高了训练的效率。

这些技术与创新让Unified-IO 2能够以前所未有的方式处理和理解文本、图像、音频和动作序列。其突破性表现表明，GPT-5或许将成为更为全能和多样化的AI模型，为各种任务和交互提供更智能、更广泛的支持。

版权声明：admin 发表于 2024-01-09 22:35:51。
转载请注明：GPT-5：下一代多模态AI模型的崭新面貌 | ai导航网

暂无评论

暂无评论...