【三维重建】DropGaussian:用于稀疏视角高斯溅射的结构正则化(CVPR2025|)
摘要: 《DropGaussian》提出一种针对稀疏视角3D高斯溅射(3DGS)的结构正则化技术,通过随机移除部分高斯分布(DropGaussian)提升剩余高斯的可见性与梯度更新机会,有效缓解训练过拟合问题。该方法创新性包括:1)无需依赖外部先验,仅通过简单修改3DGS框架实现;2)自适应渐进式丢弃策略,在训练后期动态增强正则化强度。实验表明,该方法在LLFF、Mip-NeRF360和Blend

标题:《DropGaussian: Structural Regularization for Sparse-view Gaussian Splatting》来源:Hyunwoo Park、Gun Ryu、Wonjun Kim项目:https://github.com/ueoo/DropGaussian
文章目录
创新点
1.提出全新正则化技术:论文提出名为DropGaussian的结构正则化技术,在训练过程中随机移除部分高斯分布,让剩余高斯分布有更多机会被更新,提升其可见性,进而缓解稀疏视角下的过拟合问题。
2.设计自适应策略:通过实验发现稀疏视角下过拟合主要出现在训练后期,基于此提出渐进式增加高斯移除比例的自适应策略,在训练前期不影响渲染性能的同时,有效缓解后期过拟合。
3.构建简单高效方法:与依赖强先验信息的方法不同,该方法仅对3D高斯溅射进行简单修改,无需额外计算成本,就能在多种基准数据集上实现具有竞争力的性能,提升渲染质量
摘要
近年来,3D高斯 splatting(3DGS)由于其在快速生成高质量图像方面的表现,在新视图合成领域备受关注。然而,在稀疏视图设置(例如,三视图输入)中,3DGS 常常面临过度拟合训练视图的问题,这显著降低了新视图图像的视觉质量。许多现有方法通过使用强先验信息来解决这个问题,例如 2D 生成上下文信息和外部深度信号。相比之下,本文介绍了一种无先验的方法,称为 DropGaussian,它只需对 3D 高斯 splatting 进行简单的更改。具体来说,作者在训练过程中以类似于随机失活(dropout)的方式随机移除高斯,这使得未被排除的高斯具有更大的梯度,同时提高了它们的可见性。这使得剩余的高斯在使用稀疏输入视图进行渲染的优化过程中做出更大贡献。这种简单的操作有效地缓解了过拟合问题,并提高了新视图合成的质量。通过简单地将 DropGaussian 应用于原始 3DGS 框架,作者可以在基准数据集的稀疏视图设置中,与现有的基于先验的 3DGS 方法取得具有竞争力的性能,而无需任何额外的复杂性。
一、引言
随着对逼真渲染及其应用的需求迅速增长,新视图合成(NVS)已成为一项关键技术。最近,神经辐射场(NeRF)被引入,它具有通过神经网络的可学习参数将给定的 3D 场景编码为隐式辐射场的良好能力。尽管 NeRF 及其各种变体表现出卓越的性能,但大多数先前的方法在渲染和训练方面都需要耗时的过程。与此同时,一种名为 3D 高斯 splatting(3DGS)的新技术于 2023 年出现,并正在成为 NVS 领域的主流。
3DGS 是一种生成显式辐射场的方法,该辐射场由位于 3D 空间中的一组 3D 高斯组成。基于基于点的显式表示的特性,3DGS 在为新视图输入保持渲染质量的同时,展示了实时渲染操作。然而,由于在理解给定 3D 场景时,视觉外观和几何布局的线索不足,在稀疏输入视图的情况下,3DGS 仍然容易出现过拟合。
尽管在 3DGS 领域已经做出了大量努力,但仅使用稀疏输入视图对 3D 高斯进行优化仍然具有挑战性。为了应对这一挑战,一些方法开始利用给定场景的先验信息。例如,已经有一些有意义的尝试,将单目深度估计的结果作为外部监督信号,以便将高斯放置在合适的位置。然而,由于未考虑世界坐标,估计的深度尺度在不同视图之间会有所不同,这使得一致的正则化变得困难。尽管 2D 生成上下文信息也已成功用于指导渲染过程以产生更逼真的结果,但它需要很高的计算成本,并且由于随机采样过程,常常导致不稳定的优化。另一方面,光流已被用于在稀疏视图条件下对 3D 高斯之间的像素级对应关系进行正则化。尽管这些基于先验的方法已被积极探索,以减轻由稀疏输入视图驱动的过拟合问题,但它们中的大多数都有各自的局限性,例如误差传播和高计算负担。

在本文中,与之前依赖强先验的方法不同,作者提出了一种无先验的方法,该方法只需要对 3DGS 进行简单修改,而无需额外的计算成本。在 3DGS 的传统设置中,如图 1(a)所示,远离相机且在特定视点可能被遮挡的高斯,在其他视点可能是可见的。相比之下,在稀疏视图设置中,这样的高斯通常会被排除在视野之外,由于其他高斯之间的遮挡导致可见性低,从而导致其接收的梯度反馈较少(见图 1(b))。这最终导致对少量训练视图的过拟合。所提出方法的关键思想是在训练期间随机移除高斯,即所谓的 DropGaussian,而不是采用稀疏输入视图的先验信息。基于作者的 DropGaussian 方案,如图 1(c)所示,剩余的高斯有机会变得更加可见。这种简单的操作使得使用稀疏输入视图的优化过程更加平衡,即即使可见性较低的高斯在训练期间也能得到足够的关注(见图 1(c))。因此,模型能够以全面的方式理解给定 3D 场景的整体布局。这有效地将渲染性能推广到新视图,并降低了对有限数量训练视图过拟合的风险。此外,作者观察到,在稀疏视图条件下,过拟合主要发生在训练的后期阶段,而不是初始阶段。基于这一观察,作者进一步提出在 3DGS 的训练过程中逐步应用 DropGaussian 方案。所提出方法的主要贡献可以总结如下:
- 作者提出了一种简单而强大的正则化技术,称为 DropGaussian,用于稀疏输入视图的渲染。通过在训练过程中随机消除高斯,DropGaussian 为剩余的高斯提供了更可见且具有更大梯度的机会,这使得它们能够对 3DGS 的优化过程做出有意义的贡献。这对于缓解稀疏视图条件下出现的过拟合问题是非常理想的。
- 通过在基准数据集上进行的各种实验,作者发现过拟合主要发生在训练的后期阶段,而不是稀疏输入视图的初始阶段。基于这一观察,作者提出在训练过程中逐步增加丢弃高斯的比例。这种自适应策略有效地缓解了过拟合问题,而不会对初始阶段的渲染性能产生意外影响。
三、主要方法
本方法旨在改进稀疏视图设置下高斯参数的更新过程。在本节中,作者介绍 DropGaussian,它在训练期间随机移除高斯,从而在稀疏视图条件下增加剩余高斯的更新机会,进而提高剩余高斯在稀疏视图条件下的可见性。值得注意的是,丢弃高斯的比例会逐渐增加,这能更好地缓解训练后期的过拟合问题。所提出方法的整体框架如图 2 所示。

3.1 预备知识

3.2 DropGaussian
在稀疏视图条件下,如图 1(b)所示,远离相机且因此很可能被其他高斯遮挡的 3D 高斯的透射率 T i T_i Ti 会变得相对较低。由于此类高斯的可见范围因输入视图数量少而受到严格限制,高斯的属性,例如比例、颜色、不透明度等,无法得到积极更新,导致它们对整体渲染过程的贡献降低。因此,3DGS 优化过程的梯度反馈不能充分提供给相应的高斯,最终导致对少量训练视图(即稀疏输入视图)的过拟合。
为了解决这个问题,作者提出 DropGaussian,这是一种结构正则化技术,在训练过程中随机移除一组高斯。具体来说,首先定义丢弃率 r r r,例如, r r r 设置为 0.1 表示移除总高斯数的 10%。由于此丢弃过程可能会降低对每个像素颜色值有贡献的累积不透明度,作者提议对剩余高斯的不透明度值应用补偿因子,如下所示:

其中 M ( i ) M(i) M(i)表示第 i i i个高斯的补偿因子,它为剩余高斯分配 1 ( 1 − r ) \frac {1}{(1-r)} (1−r)1 ,否则为 0。值得注意的是,即使经过丢弃过程,由于补偿因子的缩放效应,高斯对每个像素颜色值的总贡献仍能成功保持。此外,如图 1(c)所示,远离相机的高斯通过 DropGaussian 可以具有较大的梯度,因为它们的可见性得到了有效提高。
为了展示作者的 DropGaussian 方案的效果,作者进一步分析了高斯的梯度值随与相机距离的分布情况。如图 3(a)所示,即使高斯离相机有一定距离,通过 DropGaussian 它们也可以具有较大的梯度。请注意,作者仅计算梯度值大于 3DGS 中致密化阈值(即本示例中为 0.0005)的高斯。这使得 3DGS 在稀疏视图条件下渲染新视图图像时对过拟合问题具有更强的鲁棒性(见图 3(e))

此外,作者观察到,如图 4 所示,在稀疏视图条件下,随着训练过程的进行,过拟合的趋势会变得更强。为了解决这个问题,作者提议根据当前迭代索引 t t t调整丢弃率,如下所示:

其中 γ γ γ表示丢弃率的缩放因子。 t t o t a l t_{total} ttotal是训练过程的总迭代次数。这种渐进调整策略随着训练过程的推进加强了正则化效果。
3.3 损失函数
所提出的方法基于传统的颜色重建损失进行训练。遵循 3D 高斯 splatting,颜色重建损失由 L1 损失和 D - SSIM 损失组成,用于测量渲染图像 I ^ \hat{I} I^ 与真实图像 I I I 之间的结构相似性,如下所示 [8]:

其中 λ λ λ表示加权因子,用于平衡两项的贡献,设置为 0.2。
四、实验
4.1 训练
所有实验均使用 PyTorch 框架 [20] 进行,在英特尔 E5 - 1650 v4@3.60GHz CPU 和英伟达 RTX 3090Ti GPU 上运行。作者使用 Adam 优化器 [9] 训练所有模型参数,动量因子分别设置为 0.9 和 0.999。所提出的方法训练 10,000 次迭代,每 100 次迭代进行一次致密化。致密化的梯度阈值设置为 5 ∗ 10 4 5*10^4 5∗104,与文献 [36] 中使用的相同。
4.2 数据集和评估指标
数据集:为了评估所提出方法的性能,作者使用了三个具有代表性的基准数据集,即 LLFF [13]、Mip - NeRF360 [2] 和 Blender [14]。作者遵循先前工作中使用的设置,对 LLFF、Mip - NeRF360 和 Blender 数据集进行相同的划分,它们分别由 3 个、12 个和 8 个训练视图组成。LLFF 和 Mip - NeRF360 的下采样率均设置为 8,而 Blender 使用的下采样率为 2。
评估指标:为了进行定量评估,作者使用了三个指标,即峰值信噪比(PSNR)、结构相似性指数(SSIM)[28] 和学习感知图像块相似性(LPIPS)[35],这些指标在该领域已被广泛采用。具体来说,PSNR 测量渲染图像与真实图像之间的平均峰值误差。SSIM 根据亮度、对比度和纹理信息计算结构相似性。另一方面,LPIPS 通过利用学习到的特征计算感知距离,这有助于发现传统指标未反映的潜在差异。
4.3 性能评估
定量评估:为了证明所提出方法在解决过拟合问题方面的有效性,作者将其与先前在稀疏输入视图渲染中的方法进行比较,即 MipNeRF [1]、DietNeRF [7]、RegNeRF [17]、FreeNeRF [31]、SparseNeRF [26]、DNGaussian [11]、FSGS [36] 和 CoR - GS [34]。首先,在 LLFF 数据集上的性能比较如表 1 所示。可以看出,所提出的方法通过非常简单的操作在渲染性能上有显著提升。具体而言,所提出的方法在 3 视图设置下达到了最高的 PSNR 值 20.76,超过了所有基于 NeRF 和基于 3DGS 的方法。对于 6 视图和 9 视图设置,与最先进的方法(例如 CoR - GS [34])相比,作者的方法在不增加任何计算复杂度的情况下仍然取得了具有竞争力的性能。

在 Mip - NeRF360 数据集上的性能比较也如表 2 所示。值得注意的是,作者的方法达到了 23.92(PSNR)、0.755(SSIM)和 0.242(LPIPS),以显著的优势大幅超越了最先进的方法。最后,作者还评估了在 Blender 数据集上的渲染性能,相应结果如表 3 所示。所提出的方法达到了最高的 PSNR 值 25.42,而与最佳分数相比,其他两个指标的性能略有下降。尽管所提出的方法在所有指标上并不总是表现最佳,但对于稀疏视图输入的渲染,它仍然有效且具有竞争力,无需任何额外的模块或算法。

此外,作者在 Replica 数据集上(见表 4)将所提出的方法与前馈 3DGS 方法,如 pixelSplat [3]、MVSplat [4] 和 FreeSplat [27] 进行了比较。虽然这些预训练的前馈模型可以提供更快的推理速度,但作者的方法在稀疏视图输入下仍展示出较高的视觉质量。

定性评估:此外,在 LLFF 数据集上,作者将所提出的方法与 FSGS [36]、CoR - GS [34] 和 3DGS 进行了定性比较,结果如图 5 所示。结果表明,在正面场景中,与基线方法相比,作者的方法在实现高精度和无伪影渲染方面是有效的。在图 5 的第一行中,作者的方法在渲染正面场景时始终以更高的精度优于其他方法。虽然其他方法在捕捉精细细节和保持结构连贯性方面表现出明显的不准确,但作者的方法实现了卓越的保真度,保留了复杂的场景特征并产生了更逼真的输出。在第二行中,进一步展示了所提出方法在缓解过拟合方面的鲁棒性。FSGS 和 CoR - GS 表现出明显的伪影,降低了渲染的质量和真实感。相比之下,作者的方法有效地避免了这些伪影,即使在具有挑战性的区域也能保持清晰准确的重建。作者所提出方法从新视图的渲染结果也如图 7 所示。这些定性结果进一步证明了作者的方法在解决过拟合问题以及确保在不同数据集和场景类型上的稳健性能方面的有效性,展示了其在广泛渲染任务中的通用性和可靠性。

4.4 局限性和未来工作
虽然所提出的方法在缓解过拟合和提高稀疏视图 3D 高斯 splatting(3DGS)的渲染质量方面取得了显著改进,但仍存在一些需要进一步研究的局限性。这些局限性为未来的研究和实际改进提供了机会。对超参数的依赖,例如丢弃率 r r r 的缩放因子 γ γ γ ,会导致对特定数据集调优的敏感性。虽然 γ γ γ在逐步调整丢弃率以缓解过拟合方面起着关键作用,但其最优值可能会根据数据集和任务而有所不同。未来的工作可以探索自适应机制,在训练期间动态调整 γ γ γ,减少对手动微调的需求,并提高在不同数据集上的泛化能力。
4.5 消融研究
在本小节中,作者研究了丢弃率变化和渐进调整策略的影响。本小节中所有实验的性能均在 LLFF [13] 数据集的 3 视图设置下进行评估。请注意,当不使用渐进调整策略时,丢弃率的缩放因子就成为丢弃率。具体而言,与使用固定丢弃率相比,如表 5 所示,作者的渐进调整策略无论丢弃率的值如何,都能有效地提高渲染性能。对于固定丢弃率,当丢弃高斯的比例从 0.1 增加到 0.3 时,观察到性能下降,这表明过度激进地移除高斯会产生不利影响。一个有趣的点是,这种逆转突出了在缓解过拟合问题,特别是在训练后期,逐步增加丢弃率的有效性。当丢弃率的缩放因子使用 0.2 时,可获得最佳性能,因此 γ = 2 γ=2 γ=2 是作者的默认设置。这些发现证明了作者对丢弃率进行渐进调整在减少过拟合同时提高渲染质量方面的实用性。此外,作者观察到,随机丢弃高斯基元比选择性丢弃更有效。由于选择性方法依赖于梯度大小和距离等指标,它们存在反复丢弃在稀疏视图条件下对重建场景至关重要的高斯的潜在风险。相应结果如表 6 所示。在优化领域,L1 正则化通常用于修剪与目标函数相关性较低的元素。然而,这种方法可能会永久移除高斯,而作者的方法只是暂时停用高斯。也就是说,强相关的高斯可以在后续迭代中重新参与。如表 7 所示,与 L1 正则化相比,此属性有效地提高了性能。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)