开源 4D 生成框架 | 4DGen: 基于动态 3D 高斯的可控 4D 生成

关注公众号，发现CV技术之美

本文分享4D生成方向新工作，由北京交通大学和得克萨斯大学奥斯汀分校共同完成的4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency，文章使用Gaussian Splatting实现了高质量的4D生成。

文章主页：https://vita-group.github.io/4DGen/
论文地址：https://arxiv.org/abs/2312.17225
开源代码：https://github.com/VITA-Group/4DGen

视频

研究背景

尽管3D和视频生成取得了飞速的发展，由于缺少高质量的4D数据集，4D生成始终面临着巨大的挑战。过去几篇工作尝试了Text-To-4D的任务，但依然存在两个主要问题：

由于输入依赖于单视角的图片或者简单的文本描述，并不能保证得到精准的4D结果，需要花费大量的时间进行反复调整。
尽管采用了Hexplane作为4D的表征，基于NeRF的方法在高分辨率和长视频上的渲染所需要的计算时间和显存占用是难以接受的。即使采用了一个超分辨的后处理网络，依然会有模糊和闪烁的结果。

为了解决上述问题，4DGen定义了“Grounded 4D Generation“新型任务形式，并且设计了新的算法框架实现高质量的4D内容生成。

任务定义

过往的4D生成工作是“one click“的方式，并不能对生成的结果进行有效的控制。4DGen提出了“Grounded 4D Generation“的形式，通过利用视频序列和可选的3D模型作为4D生成的控制信息，可以实现更为精准的4D内容生成。用户可通过输入视频序列或3D模型来约束4D结果的运动和外观；当用户仅提供单张图片作为输入时，可借助预训练好的视频生成模型来得到视频序列；当用户未提供3D模型时，可通过单张图片重建3D模型来作为起始点。

方法介绍

4DGen框架的输入起始点为用户给定或者模型生成的视频序列，对于任意的单张图片，借助多视角生成模型（multi-view diffusion model），可以得到不同视角的图片。4DGen通过对第一帧多视图进行三维重建，得到初始的静态3D Gaussians作为4D生成的起始点。

由于4D数据的匮乏，需要尽可能的从先验模型中蒸馏信息。4DGen将每一帧生成的多视图作为2D伪标签，并且采用多视图生成的点云作为3D点的伪标签来监督训练过程。

因为多视图生成具有ill-posed的特点，得到的伪标签在不同视角之间，不同时序之间存在不连续性，需要引入时间和空间上的一致性损失函数进行约束。相较于拟合多视图DDIM采样得到的图片，score distillation sampling（SDS）是根据先验的扩散模型对场景表达进行似然估计。4DGen依据正面视角计算任意视角图片在Zero123模型上的SDS损失，用于提升空间上的连续性。

为了缓解闪烁问题，4DGen引入了无监督的时间平滑约束。通过计算平面的平滑损失和Gaussians不同时刻的平滑损失，有效提升了时间上的一致性。

实施细节

4DGen的 4D表达采用了4D Gaussian Spaltting的方式，通过一个多分辨率Hexplane对每个Gaussian进行编码。将6个时空平面的特征进行相加，并经过一个额外的MLP解码得到对应Gaussian在不同时刻的位置偏移量。训练上采用三阶段方式，第一阶段对场景进行静态建模，第二阶段利用2D和3D的伪标签进行动态场景的初步建模，第三建模利用平滑损失增强模型的细节和连续性。

所有实验可以在一张RTX3090上完成，对于2.5万个Gaussians只需45分钟的训练，对于9万个Gaussians训练2小时可以得到更加好的细节效果。

实验结果

4DGen可以实现不同视角、不同时间的高质量图片渲染。相较于对比方法在细节表达、噪声去除、颜色还原、时空连续性等方面有显著提升。更多视觉效果可以参考项目主页。

量化对比上，4DGen采用了不同时序图片和参考图片的CLIP距离来衡量生成质量，采用CLIP-T衡量不同时间下的图像连续性。4DGen在多项指标上明显优于过往方法。

总结

4DGen定义了” Grounded 4D Generation“的任务形式，通过视频序列和可选3D模型的引入提升了4D生成的可控性。通过高效的4D Gaussian Splatting的表达，2D和3D伪标签的监督和时空的连续性约束，使得4DGen可以实现高分辨率、长时序的高质量的4D内容生成。

END