当前位置:
首页 > 文章 > 扫盲资料 > 手办图片真实-3张图片生成人物3D模型!中国医生提出新模型NeROIC,更逼真

手办图片真实-3张图片生成人物3D模型!中国医生提出新模型NeROIC,更逼真

随着深度学习的加入,计算机图形学产生了许多新兴领域。

神经渲染(Neural Rendering)技术利用各种深度神经网络进行图像合成。 通过自动化流程,可以节省从业者大量的时间和精力。

例如,给定从不同角度拍摄的几张二维图像,神经渲染模型可以生成三维模型,而无需任何人工干预。

在现实生活中,您可能会有一堆人物照片。 如果以传统方式构建3D模型手办图片真实,将需要大量工作。 光是想想就让人秃头。

神经渲染技术可以轻松地将这些模型输入计算机,让机器了解这些照片中物体在三维空间中的实际形状和物理状态。

对于人类来说,这个任务可以说非常容易,因为人眼了解现实世界和图像的深度,但对于只能看到像素的计算机来说,神经渲染模型的设计仍然非常具有挑战性。 。

除了拍摄人物照片外,游戏从业者还可以利用神经渲染技术简单地拍摄一些物体的照片,合成3D模型,然后创建一个完美的游戏场景。

但如果模型只是看起来准确并且形状更适合照片,这是不够的,因为一旦将合成的物体放置在新的场景中,由于光线的差异,合成的模型会在新的环境中看起来格格不入和影子,所以一下子就会“暴露”。

针对这一问题,SnapChat 和南加州大学的研究人员提出了一种新模型 NeROIC,可以解决从图像创建虚拟物体所带来的光照和真实感问题。

论文地址:

新模型基于神经辐射场,该模型广泛应用于重建手办图片真实,例如NeRF等模型。 然而,神经辐射场需要在相同的理想条件下完美建模,这不能满足真实场景的需要。

研究人员从NeRF模型入手对其进行改进。 NeRF 神经网络以图像作为输入进行训练,用于推断每个像素的颜色、不透明度和光能传递,并猜测对象中未出现在 2D 图像中的小部分中缺失的像素。 但这种方法不适用于较大的缺失部分或不同的光照条件,因为它只能从输入图像进行插值。 因此,新模型需要更多信息来推断和假设某处应该有什么,或者这些像素在这种照明下应该是什么样子,等等。

很多方法都是基于NeRF来解决这个问题的,但是新的模型总是需要用户提供更多的输入条件,这不符合实际场景的需要,而且很多情况下用户并不清楚这些数据。 尤其是当其他人想要建立一个好的数据集来训练模型时,就更困难了。

总的来说,之前的 NeRF 型模型并没有真正理解物体,也没有理解物体所处的环境。

所以真正要解决的问题还是灯光。

研究人员的目标是在在线图像中也使用这种新的模型架构。 也就是说,新模型应该能够处理不同光照、相机、环境和姿势的图像。 NeRF也是如此。 难以捉摸的真实性。

除了需要对象本身的图像之外,它们唯一需要的是粗略的前景分割器和相机参数的估计,这两者都可以通过其他可用模型获得。 前景分割基本上只是一个掩模,它告诉模型用户感兴趣的对象位于图像上的位置。

新模型的不同之处在于,它们将对象的渲染与输入图像中的环境照明分开,使这两项任务独立并分两个阶段完成。

首先,(a)网络获取物体的几何形状,这是与NeRF最相似的部分,文中称为Geometry Network。 它结合输入图像、分割掩模和相机参数估计来构建辐射场并找到每个像素的密度和颜色的猜测结果。 整体流程与NeRF基本相同,但新模型需要适应输入图像中的不同光照。 健康)状况。

这种差异来自模型中的两个分支,允许模型将静态内容与不断变化的参数(例如相机或阴影)分开,从而允许模型接受如何正确地将静态内容与其他不需要的参数(例如光照)隔离的训练。 来,但仅靠这些并不能完美还原模型的空间结构。

在(b)中,研究人员将从这个学习的密度场中估计表面法线作为物体的形状纹理。 换句话说,(a) 中产生的结果可以帮助找到物体对光的响应。

在此阶段,可以找到物体的无偏材料属性,或者可以使用具有 Sobel 核的三维卷积来获得属性的估计。 整个过程基本上是一个过滤器,可以在三维空间中使用来查找所有对象边缘并确定边缘的锐度,这可以提供有关对象的不同纹理和形状的基本信息。

阶段(c)是调整模型学习的几何形状并优化使用该渲染网络刚刚生成的法线。

它还包含两个分支,一个是材质,另一个是灯光。 他们将使用球谐函数来表示照明模型并在训练期间优化其系数。

研究人员在论文中解释说ip形象,这里可以使用球谐函数来表示在球体上定义的一组基本函数,并且在球体表面上定义的每个函数都可以写成这些球谐函数的和。 该技术通常用于计算 3D 模型的光照。

这种方法可以产生高度真实的阴影,并且开销相对较小。 简而言之,它只会减少需要估计的参数数量,但保持相同的信息量。

因此,本文提出的新模型不是从头开始学习如何为整个对象渲染适当的照明,而是学习用于估计每个像素表面照明的正确系数,从而将问题减少到几个参数。

另一个分支被训练来改善物体的表面法线,遵循相同的技术,使用标准的 Phong BRDF 将基于几个参数找到物体的材料属性模型。

最后,渲染和光照两个分支被合并以预测每个像素的最终颜色。

文中的实验部分与NeRF模型进行了对比,评价指标为峰值信噪比(PSNR)和结构相似性指数测量(SSIM)的平均分。

考虑到测试图像的光照条件未知,研究人员从同一场景的另一张训练图像中选取光照参数(嵌入向量或SH系数),并冻结网络,使用随机梯度下降优化器对照明参数。 1000 步优化。

从实验结果可以看出卡通人物,新模型比NeRF有相当大的优势,而且在实际效果中,NeRF产生的结果更加一致和平滑。

文章第一作者为南加州理工学院博士生邝正飞。 主要研究领域包括神经渲染、3D重建、人体数字化与动画、基于物理的仿真等。2019年毕业于清华大学,获得学士学位。

参考: