GPT-5:下一代多模态AI模型的崭新面貌

AI快讯 1年前 (2024) admin
1,488 0

近日,艾伦人工智能研究所发布了Unified-IO 2,这个新模型窥见了GPT-5的可能面貌。Unified-IO 2是第一个处理文本、图像、音频、视频和动作序列的模型,通过几十亿个数据点的训练,展现出了广泛的多模态能力。

GPT-5:下一代多模态AI模型的崭新面貌

Unified-IO 2与GPT-5

艾伦人工智能研究所的第一代Unified-IO在处理图像和语言方面起到了先驱作用。在2022年6月左右,当OpenAI内部测试GPT-4时,第一代Unified-IO推出了。这预示着Unified-IO是对大规模AI模型的前瞻。

或许,正如Unified-IO 2所展示的,OpenAI或许正在内部测试GPT-5,并可能在未来几个月发布。这代新的AI模型预示着更广泛的学习能力,处理更多模态,以及对物体和机器人交互的基本理解。

GPT-5:下一代多模态AI模型的崭新面貌

Unified-IO 2使用了多达120多个数据集的600 TB的训练数据,涵盖了220个视觉、语言、听觉和动作任务。这个模型采用编码器-解码器架构,经过改进以稳定训练并有效利用多模态信号。

这个模型不仅能回答问题、撰写文本和分析内容,还能识别图像内容、生成图像描述,执行图像处理任务,生成音乐或声音,分析视频并回答相关问题。此外,通过机器人数据进行训练,还能生成机器人系统的动作序列。

在超过35个基准测试中,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作等任务,Unified-IO 2表现出色,甚至有时超过了专用模型的表现。

GPT-5:下一代多模态AI模型的崭新面貌

为了统一多模态数据,研究人员使用了一系列技术来改进整个训练过程,包括对文本、图像、音频等不同模态的标记化和编码,以及对训练过程中的稳定性和可扩展性的优化。

模型的预训练损失稳定,通过不同模态的去噪和生成技术、感知器重采样器等方法提高了训练的稳定性。同时,对训练过程中的数据处理和多模态指令调优进行了精细的设计。

多模态指令调优和效率优化

为了使模型适应不同模态的指令,研究人员构建了多模态指令调优数据集。同时,针对处理大量多模态数据的挑战,使用了打包技术和动态排列流式传输的启发式算法,从而提高了训练的效率。

这些技术与创新让Unified-IO 2能够以前所未有的方式处理和理解文本、图像、音频和动作序列。其突破性表现表明,GPT-5或许将成为更为全能和多样化的AI模型,为各种任务和交互提供更智能、更广泛的支持。

版权声明:admin 发表于 2024-01-09 22:35:51。
转载请注明:GPT-5:下一代多模态AI模型的崭新面貌 | ai导航网

暂无评论

暂无评论...