2023 年底,科技公司正全力攻克生成式人工智能的最后一个难关 —— 视频生成。在这一浪潮中,谷歌推出的 VideoPoet 大模型引起了广泛关注,被誉为革命性的 zero-shot 视频生成工具。

VideoPoet 的问世
本周二,VideoPoet 大模型正式上线,瞬间引发了公众的极大兴趣。这款名为 VideoPoet 的大语言模型具备文本生成视频、图像生成视频、风格迁移和视频转语音等多种功能。其效果不仅丰富多样,而且运动流畅。
这一消息一经发布,立即受到热烈欢迎。人们纷纷表示对目前的成品效果印象深刻,同时也对大模型技术的迅猛发展感到惊讶。
视频生成的多重应用
随着生成式人工智能的不断发展,近期涌现出一批新的视频生成模型,它们展示了惊人的画面质量。在这其中,VideoPoet 通过引入大语言模型(LLM)实现了多样化的视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复、扩展以及视频转音频等。
文本生成视频
通过输入文本提示,VideoPoet 能够生成丰富细节、分辨率高达 8k 的视频。比如,一只戴着耳机的狗正在欣赏音乐,给人一种栩栩如生的感觉。
图像生成视频
对于图像到视频的任务,VideoPoet 能够通过简单的提示将输入图像生动化。例如,输入一张蒙娜丽莎打哈欠的照片,模型可以根据提示“一个女人打哈欠”生成生动有趣的视频效果。
视频风格化
VideoPoet 还具备视频风格化的能力,根据文本提示对输入视频进行独特风格的渲染。比如,泰迪熊在冰湖上滑冰,金属色的狮子在熔炉光芒下咆哮,都展现了其多样的创造力。
生成音频
除了视频,VideoPoet 还能够生成音频。模型首先生成 2 秒的音频剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频,实现了从单一模型生成视频和音频的能力。
长视频和扩展
VideoPoet 能够生成默认长度为 2 秒的视频,并通过调节最后 1 秒并预测接下来的 1 秒,实现了无限制地生成任意时长的视频。用户还可以通过改变提示,扩展原始视频,创造出更为丰富的视觉体验。
交互式视频编辑和修复
提供输入视频后,用户可以通过改变物体的运动执行不同的动作,实现交互式视频编辑。此外,VideoPoet 还可以在视频被遮住的部分添加细节,通过文本引导进行修复。
VideoPoet 的背后技术
VideoPoet 使用了多个 tokenizer,包括用于视频和图像的 MAGVIT V2 以及用于音频的 SoundStream。这使得模型能够训练自回归语言模型,学习跨视频、图像、音频和文本的多模态生成。
评估结果
研究团队通过各种基准对 VideoPoet 进行了评估,结果显示在文本到视频生成方面,该模型的性能表现优异。人们普遍认为,在遵循提示的情况下,VideoPoet 中有 24-35% 的示例比竞争模型更出色,评分者更喜欢 VideoPoet 中 41-54% 的示例,因为其生成的视频动作更有趣。
总体而言,VideoPoet 以其强大的功能和革命性的多模态生成技术,为视频生成领域带来了全新的可能性,也为生成式人工智能的未来指明了方向。在科技公司争相突破的过程中,这一创新将有望引领视频生成技术的新时代。