参考论文总结“NEURAL VOLUME RENDERING: NERF AND BEYOND“,2021年1月,乔治亚理工和麻省理工的合著。

神经体绘制:NeRF及其以外方法

神经渲染定义为:

“一种深度图像或视频生成方法,可显式或隐式控制场景属性,如照明、摄像机参数、姿势、几何、外观和语义结构”。

它是一种新数据驱动解决方案,解决了计算机图形学中长期存在的虚拟世界真实感渲染问题。

神经体渲染,是指通过跟踪光线进入场景并沿光线长度进行某种积分生成图像或视频的方法。通常,像多层感知器一样的神经网络将从光线的3D坐标到密度和颜色等的函数进行编码,并集成生成图像。

神经体渲染的直接先驱工作是用神经网络定义隐式曲面表示的方法。许多3D感知图像生成方法使用体素、网格、点云或其他表示,通常基于卷积架构。但在2019年CVPR上,至少有三篇论文介绍了用神经网络作为标量函数近似来定义占有率(occupancy)和/或符号距离函数(SDF)。

其他采用隐函数的方法有:

并非完全无中生有,尽管仍然是基于(warped)体素的表示,神经体(Neural Volumes)论文引入了用于视图合成的体渲染,回归了密度和颜色的3D体。潜代码被解码成3D体,然后通过体渲染获得新图像。

其提出在3D空间中的每个位置使用不透明度和颜色组成的体表示,其中通过积分投影实现渲染。在优化过程中,这种半透明的几何表示沿积分射线分散梯度信息,有效地扩大了收敛范围,从而能够发现良好的解决方案。

引起大家讨论的论文是神经辐射场NeRF论文(2020年)。本质上,用深度SDF架构,但回归的不是有符号距离函数(SDF),而是密度和颜色。然后,用(容易微分的)数值积分方法来近似真实的体渲染步骤。

NeRF模型将体场景表示存储为MLP的权重,并在许多有已知姿态的图像上进行训练。通过沿每条查看光线以规则间隔集成密度和颜色来渲染新视图。

NeRF非常详细渲染的原因之一是,使用周期性激活函数(periodic activation functions),即傅立叶特征,对光线上的3D点和相关视图方向进行编码。这一创新后来被推广到周期性激活函数的多层网络,即SIREN(SInusoidal- REpresentation Networks)。这两篇文章都发表在NeurIPS 2020上。

可以说,NeRF论文的影响在于其残酷的简单性:只需一个MLP在5D坐标下输出密度和颜色。有一些华丽点缀(bells and whistles),特别是位置编码和分层抽样方案,但惊讶于如此简单的架构可以产生如此令人印象深刻的结果。尽管如此,原始NeRF留下了许多改进的机会:

一些项目/论文旨在改善原始NeRF论文的相当慢的训练和渲染时间。

至少有四项工作侧重于动态场景:

还有两篇论文关注人物的头像/肖像。

NeRF风格方法得到增强的另一个方面是如何处理照明,通常是通过可用于重照明场景的潜代码。

潜代码也可用于编码形状先验:

可以说,所有这些都不会扩展到由许多目标组成的大型场景,因此一个令人兴奋的新领域是如何将目标组成体渲染场景。

最后,至少有一篇论文在(已知)目标姿态估计的背景下使用了NeRF渲染。

神经体渲染和NeRF风格的论文,最终是否会成功还远未可知。虽然现实世界中确实存在烟雾、烟雾、透明等,但最终大部分光线都从表面散射到眼睛中。由于基于体的方法,NeRF风格的网络可能很容易训练,但已经看到一种趋势,即论文试图在收敛后发现或猜测曲面。事实上,原NeRF论文中的分层抽样方案正是这样。因此,当从NeRF中学习时,可以很容易地看到移回SDF风格的隐式表示或甚至体素,至少在推理时是这样。