Stability AI发布新的3D视频生成模型「Stable Video 3D」

AI快讯 1年前 (2024) admin
403 0

Stability AI近日推出了一款全新的3D视频生成模型「Stable Video 3D」(简称SV3D),为3D生成领域带来了全新的SOTA级选手。这款模型是在推出了文生图Stable Diffusion和文生视频Stable Video Diffusion之后,Stability AI为社区带来的最新力作。

SV3D是在Stable Video Diffusion的基础上打造而成的,能够显著提升3D生成的质量和多视角的一致性。与之前由Stability AI推出的Stable Zero123以及丰田研究院和哥伦比亚大学联合开源的Zero123-XL相比,SV3D的效果更加优秀。

Stability AI发布新的3D视频生成模型「Stable Video 3D」

目前,Stable Video 3D既支持商用,需要加入Stability AI会员,也支持非商用,用户可以在Hugging Face平台上下载模型权重。

Stability AI为用户提供了两个模型变体,分别是SV3D_u和SV3D_p。其中,SV3D_u基于单个图像输入生成轨道视频,无需相机调整;而SV3D_p通过适配单个图像和轨道视角扩展了生成能力,允许用户沿着指定的相机路径创建3D视频。

Stable Video 3D的研究论文已经发布,核心作者有三位。论文地址为https://stability.ai/s/SV3D_report.pdf,同时,Stability AI还在其博客上发布了相关介绍,博客地址为https://stability.ai/news/introducing-stable-video-3d。用户可以在Huggingface平台上获取更多相关信息,地址为https://huggingface.co/stabilityai/sv3d。

技术概览:Stable Video 3D在3D生成领域取得了重大进步,尤其在新颖视图生成方面。相比于以往的方法,该模型能够从任何给定角度提供连贯视图,并能够很好地泛化。因此,SV3D不仅增加了姿势可控性,还能确保多个视图中对象外观的一致性,进一步改善了影响真实和准确3D生成的关键问题。

通过与Stable Zero123和Zero-XL进行对比,我们可以看到,与之前的模型相比,Stable Video 3D能够生成细节更加丰富、更忠实于输入图像,并且多视角更加一致。

此外,Stable Video 3D利用多视角一致性优化了3D神经辐射场(NeRF),从而提高了从新视图生成3D网格的质量。为此,Stability AI设计了掩码分数蒸馏采样损失,进一步增强了预测视图中未见过区域的3D质量。同时,为了解决烘焙照明问题,Stable Video 3D采用了与3D形状和纹理共同优化的解耦照明模型。

在架构细节方面,Stable Video 3D模型基于Stable Video Diffusion架构构建,包含一个多层的UNet,每一层还包括一个带有Conv3D层的残差块序列,以及两个带有空间和时间注意力层的transformer块。

具体流程如下:

  1. 删除「fps id」和「motion bucket id」的矢量条件,因为它们与Stable Video 3D无关;
  2. 条件图像通过Stable Video Diffusion的VAE编码器嵌入到潜在空间,并在每个噪声时间步t处连接到噪声潜在状态输入zt;
  3. 条件图像的CLIPembedding矩阵作为键和值被提供给每个transformer块的交叉注意力层,而查询成为相应层的特征;
  4. 相机轨迹沿着扩散噪声时间步被馈入到残差块中。相机姿势角度ei和ai以及噪声时间步t首先被嵌入到正弦位置嵌入中,然后将相机姿势嵌入进行线性变换并添加到噪声时间步嵌入中,最后馈入到每个残差块,并添加到该块的输入特征中。

此外,Stability AI还设计了静态轨道和动态轨道来研究相机姿势调整的影响。静态轨道中,相机围绕对象以等距方位角旋转,仰角与条件图像相同。然而,这种方法可能无法获得关于对象顶部或底部的信息。而动态轨道中,方位角可以不等距,并且每个视图的仰角可以不同。为了构建动态轨道,Stability AI对静态轨道进行采样,在方位角上添加小的随机噪声,并在仰角上添加不同频率的正弦曲线的随机加权组合。这样做既提供了时间平滑性,又确保相机轨迹在结束时沿着与条件图像相同的方位角和仰角循环。

通过对未见过的GSO和OmniObject3D数据集进行评估,Stability AI验证了Stable Video 3D在静态和动态轨道上合成多视图的效果。实验结果表明,Stable Video 3D在新颖多视图合成方面达到了SOTA水平。

版权声明:admin 发表于 2024-03-21 10:02:22。
转载请注明:Stability AI发布新的3D视频生成模型「Stable Video 3D」 | ai导航网

暂无评论

暂无评论...