Stability AI发布新的3D视频生成模型「Stable Video 3D」

AI快讯 2年前 (2024) admin

1,178 0 7

Stability AI近日推出了一款全新的3D视频生成模型「Stable Video 3D」（简称SV3D），为3D生成领域带来了全新的SOTA级选手。这款模型是在推出了文生图Stable Diffusion和文生视频Stable Video Diffusion之后，Stability AI为社区带来的最新力作。

SV3D是在Stable Video Diffusion的基础上打造而成的，能够显著提升3D生成的质量和多视角的一致性。与之前由Stability AI推出的Stable Zero123以及丰田研究院和哥伦比亚大学联合开源的Zero123-XL相比，SV3D的效果更加优秀。

Stability AI发布新的3D视频生成模型「Stable Video 3D」

目前，Stable Video 3D既支持商用，需要加入Stability AI会员，也支持非商用，用户可以在Hugging Face平台上下载模型权重。

Stability AI为用户提供了两个模型变体，分别是SV3D_u和SV3D_p。其中，SV3D_u基于单个图像输入生成轨道视频，无需相机调整；而SV3D_p通过适配单个图像和轨道视角扩展了生成能力，允许用户沿着指定的相机路径创建3D视频。

Stable Video 3D的研究论文已经发布，核心作者有三位。论文地址为https://stability.ai/s/SV3D_report.pdf，同时，Stability AI还在其博客上发布了相关介绍，博客地址为https://stability.ai/news/introducing-stable-video-3d。用户可以在Huggingface平台上获取更多相关信息，地址为https://huggingface.co/stabilityai/sv3d。

技术概览：Stable Video 3D在3D生成领域取得了重大进步，尤其在新颖视图生成方面。相比于以往的方法，该模型能够从任何给定角度提供连贯视图，并能够很好地泛化。因此，SV3D不仅增加了姿势可控性，还能确保多个视图中对象外观的一致性，进一步改善了影响真实和准确3D生成的关键问题。

通过与Stable Zero123和Zero-XL进行对比，我们可以看到，与之前的模型相比，Stable Video 3D能够生成细节更加丰富、更忠实于输入图像，并且多视角更加一致。

此外，Stable Video 3D利用多视角一致性优化了3D神经辐射场（NeRF），从而提高了从新视图生成3D网格的质量。为此，Stability AI设计了掩码分数蒸馏采样损失，进一步增强了预测视图中未见过区域的3D质量。同时，为了解决烘焙照明问题，Stable Video 3D采用了与3D形状和纹理共同优化的解耦照明模型。

在架构细节方面，Stable Video 3D模型基于Stable Video Diffusion架构构建，包含一个多层的UNet，每一层还包括一个带有Conv3D层的残差块序列，以及两个带有空间和时间注意力层的transformer块。

具体流程如下：

删除「fps id」和「motion bucket id」的矢量条件，因为它们与Stable Video 3D无关；
条件图像通过Stable Video Diffusion的VAE编码器嵌入到潜在空间，并在每个噪声时间步t处连接到噪声潜在状态输入zt；
条件图像的CLIPembedding矩阵作为键和值被提供给每个transformer块的交叉注意力层，而查询成为相应层的特征；
相机轨迹沿着扩散噪声时间步被馈入到残差块中。相机姿势角度ei和ai以及噪声时间步t首先被嵌入到正弦位置嵌入中，然后将相机姿势嵌入进行线性变换并添加到噪声时间步嵌入中，最后馈入到每个残差块，并添加到该块的输入特征中。

此外，Stability AI还设计了静态轨道和动态轨道来研究相机姿势调整的影响。静态轨道中，相机围绕对象以等距方位角旋转，仰角与条件图像相同。然而，这种方法可能无法获得关于对象顶部或底部的信息。而动态轨道中，方位角可以不等距，并且每个视图的仰角可以不同。为了构建动态轨道，Stability AI对静态轨道进行采样，在方位角上添加小的随机噪声，并在仰角上添加不同频率的正弦曲线的随机加权组合。这样做既提供了时间平滑性，又确保相机轨迹在结束时沿着与条件图像相同的方位角和仰角循环。

通过对未见过的GSO和OmniObject3D数据集进行评估，Stability AI验证了Stable Video 3D在静态和动态轨道上合成多视图的效果。实验结果表明，Stable Video 3D在新颖多视图合成方面达到了SOTA水平。

版权声明：admin 发表于 2024-03-21 10:02:22。
转载请注明：Stability AI发布新的3D视频生成模型「Stable Video 3D」 | ai导航网

暂无评论

暂无评论...

Stability AI发布新的3D视频生成模型「Stable Video 3D」

Altman谈OpenAI宫斗、马斯克诉讼以及AGI与外星文明

ChatGPT：五个你绝对应该尝试的功能

暂无评论