Sora模型：OpenAI新出的大型模型，可根据文本生成60秒视频

简介

OpenAI推出了一款名为Sora的新产品，这是继ChatGPT之后的又一款震撼科技圈的产品。Sora是一款文生成视频大模型，可以创建长达60秒的视频，具有非常详细的场景、复杂的摄像机运动和充满活力的情感的多个角色。这标志着AI视频领域将迎来翻天覆地的变革！

主要功能和优势

Sora不仅能够根据文字指令创建逼真而富有想象力的场景，而且其生成的视频长度可达1分钟，实现了一镜到底的惊人效果。相比于Runway Gen 2、Pika等AI视频工具仅能突破几秒的连贯性，OpenAI的Sora已经实现了史诗级的突破。

在长达60秒的一镜到底视频中，女主角、背景人物之间的一致性令人惊叹，各种镜头切换自如，人物表现保持着神一般的稳定性。Sora的问世将为用户带来前所未有的视频体验，为视频创作提供了全新的可能性。

工作原理

Sora的工作原理类似于OpenAI的图像生成人工智能工具DALL-E。用户输入想要的场景，Sora就会返回一个高清视频剪辑。Sora还可以生成受静态图像启发的视频剪辑，并扩展现有视频或填充缺失的帧。

安全性

Sora的安全性备受关注。在发布之前，OpenAI采取了多项重要的安全措施。他们与红队成员合作，这些专家擅长处理错误信息、仇恨内容和偏见等问题，对模型进行了对抗性测试。此外，OpenAI还开发了工具来检测误导性内容，并建立了强大的图像分类器，用于检查生成的视频以确保符合使用策略。

展望

随着聊天机器人和图像生成器逐渐渗透进入消费者和商业领域，视频创作很可能成为生成式人工智能的下一个前沿领域。尽管这种创新将会激发人工智能爱好者的热情，但随着全球重要政治选举的临近，新技术也引发了严重的错误信息担忧。

在这一趋势下，OpenAI推出了名为Sora的视频生成人工智能工具，意在与Meta和谷歌等公司的竞争对手展开角逐。早在1月份，谷歌就宣布推出了Lumiere。此外，其他初创公司也相继推出了类似的人工智能工具，如Stability AI，该公司推出了名为Stable Video Diffusion的产品。而亚马逊也发布了“与Alexa一起创造”（Create with Alexa）项目，专门用于生成基于提示的短篇儿童动画内容。

目前，Sora仅限于生成一分钟或更短的视频。OpenAI在微软的支持下，将多模态——文本、图像和视频生成的结合——作为其提供更广泛的人工智能模型套件的目标。

OpenAI首席运营官Brad Lightcap在11月接受CNBC采访时表示：“世界是多模态的。如果你想想我们作为人类处理世界和与世界互动的方式，我们看到的东西，我们听到的东西，我们说的东西——世界比文字大得多。所以对我们来说，文本和代码作为单一的模式，单一的接口，我们可以拥有这些模型有多强大，它们能做什么，总是感觉不完整。”

截至目前，Sora仅供一小部分安全测试人员或“红队”使用，他们测试该模型在错误信息和偏见等方面的漏洞。除了在其网站上可以找到的10个样本片段外，该公司还没有发布任何公开演示，并表示将在周四晚些时候发布随附的技术论文。

OpenAI还表示，他们正在构建一个“检测分类器”，可以识别Sora生成的视频片段，并计划在其输出中包含某些元数据，以帮助识别人工智能生成的内容，这与Meta今年大选年用来识别人工智能生成的图像的方法相似。