当前位置:首页 > 壁挂炉 > 文章正文

4K画质3D合成视频不再卡成幻灯片新方法将衬着速度提高了30多倍

编辑:[db:作者] 时间:2024-08-25 01:49:34

编辑:张倩、陈萍

本文提出了一种打破性的点云表示 4K4D,能够以 4K 分辨率对动态 3D 场景进行高保真实时渲染,达到了前所未有的渲染速率和令人印象深刻的渲染质量。

4K画质3D合成视频不再卡成幻灯片新方法将衬着速度提高了30多倍

当 4K 画质、60 帧视频在某些 APP 上还只能开会员不雅观看时,AI 研究者已经把 3D 动态合成视频做到了 4K 级别,而且画面相称流畅。

在现实生活中,我们打仗的大多数视频都是 2D 的。
在不雅观看这种视频时,我们是没有办法选择不雅观看视角的,比如走到演员中间,或者走到空间的某个角落。
VR、AR 设备的涌现填补了这一毛病,它们供应的 3D 视频许可我们变换视角、乃至随意走动,沉浸感大大提升。

但是,这种 3D 动态场景的合成一贯是个难点,无论是在画质上还是流畅度上。

最近,来自浙江大学、像衍科技和蚂蚁集团的研究者对这个问题发起了寻衅。
在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中,他们提出了一种名为4K4D的点云表示方法,大大提升了高分辨率3D动态场景合成的渲染速率。
详细来说,利用 RTX 4090 GPU,他们的方法能以 4K 分辨率进行渲染,帧率可达80 FPS;以1080p分辨率进行渲染时,帧率可达400FPS。
总体来看,它的速率因此前方法的30多倍,而且渲染质量达到了SOTA。

以下是论文简介。

论文概览

论文链接:https://arxiv.org/pdf/2310.11448.pdf项目链接:https://zju3dv.github.io/4k4d/

动态视图合成旨在从捕获的视频中重修动态 3D 场景,并创建沉浸式虚拟回放,这是打算机视觉和打算机图形学中长期研究的问题。
这种技能实用性的关键在于它能够以高保真度实时渲染,使其能够运用于 VR/AR、体育广播和艺术演出捕捉。
传统方法将动态 3D 场景表示为纹理网格序列,并利用繁芜的硬件进行重修。
因此,它们常日仅限于受控环境。

最近,隐式神经表示在通过可微渲染从 RGB 视频重修动态 3D 场景方面取得了巨大成功。
例如《Neural 3d video synthesis from multi-view video》将目标场景建模为动态辐射场,利用体渲染合成图像,并与输入图像进行比拟优化。
只管动态视图合成结果令人印象深刻,但由于网络评估昂贵,现有方法常日须要几秒钟乃至几分钟才能以 1080p 分辨率渲染一张图像。

受静态视图合成方法的启示,一些动态视图合成方法通过降落网络评估的本钱或次数来提高渲染速率。
通过这些策略,MLP Maps 能够以 41.7 fps 的速率渲染前景动态人物。
然而,渲染速率的寻衅仍旧存在,由于 MLP Maps 的实时性能只有在合成中平分辩率(384512)的图像时才能实现。
当渲染 4K 分辨率的图像时,它的速率降落到只有 1.3 FPS。

在这篇论文中,研究者提出了一种新的神经表示 ——4K4D,用于建模和渲染动态 3D 场景。
如图 1 所示,4K4D 在渲染速率上明显优于以前的动态视图合成方法,同时在渲染质量上具有竞争力。

作者表示,他们的核心创新在于 4D 点云表示和稠浊外不雅观模型。
详细而言,对付动态场景,他们利用空间雕刻算法得到粗点云序列,并将每个点的位置建模为可学习向量。
他们还引入 4D 特色网格,为每个点分配特色向量,并将其输入 MLP 网络,以预测点的半径、密度和球谐函数(SH)系数。
4D 特色网格自然地在点云上运用了空间正则化,使得优化更加稳健。
基于 4K4D,研究者开拓了一种可微深度剥离算法,利用硬件光栅化实现前所未有的渲染速率。

研究者创造,基于 MLP 的 SH 模型难以表示动态场景的外不雅观。
为了缓解这个问题,他们还引入了一个图像稠浊模型来与 SH 模型结合,以表示场景的外不雅观。
一个主要的设计是,他们使图像稠浊网络独立于不雅观看方向,因此可以在演习后预先打算,以提高渲染速率。
作为一把双刃剑,该策略使图像稠浊模型沿不雅观看方向离散。
利用连续 SH 模型可以填补这个问题。
与仅利用 SH 模型的 3D Gaussian Splatting 比较,研究者提出的稠浊外不雅观模型充分利用了输入图像捕获的信息,从而有效地提高了渲染质量。

为了验证新方法的有效性,研究者在多个广泛利用的多视图动态新视图合成数据集上评估了 4K4D,包括 NHR、ENeRF-Outdoo、DNA-Rendering 和 Neural3DV。
广泛的实验表明,4K4D 不仅渲染速率快了几个数量级,而且在渲染质量方面也明显优于 SOTA 技能。
利用 RTX 4090 GPU,新方法在 DNA-Rendering 数据集上达到 400 FPS,分辨率为 1080p;在 ENeRF-Outdoor 数据集上达到 80 FPS,分辨率为 4k。

方法先容

给定捕获动态 3D 场景的多视图视频,本文旨在重修目标场景并实时地进行视图合成。
模型架构图如图 2 所示:

接着文中先容了用点云建模动态场景的干系知识,他们从 4D 嵌入、几何模型以及外不雅观模型等角度展开。

4D 嵌入:给定目标场景的粗点云,本文利用神经网络和特色网格表示其动态几何和外不雅观。
详细来说,本文首先定义了六个特色平面 _xy、_xz、_yz、_tx、_ty 和 _tz,并采取 K-Planes 策略,利用这六个平面来建模一个 4D 特色场 (x, t):

几何模型:基于粗点云,动态场景几何构造通过学习每个点上的三个属性(entries)来表示,即位置 p ∈ R^3 、半径 r ∈ R 和密度 ∈ R。
然后借助这些点,打算空间点 x 的体积密度。
点位置 p 被建模为一个可优化的向量。
通过将 Eq.(1) 中的特色向量 f 馈送到 MLP 网络中来预测半径 r 和密度 。

外不雅观模型:如图 2c 所示,本文利用图像稠浊技能和球谐函数(SH)模型来构建稠浊外不雅观模型,个中图像稠浊技能表示离散视图外不雅观 c_ibr,SH 模型表示连续的依赖于视图的外不雅观 c_sh。
对付第 t 帧处的点 x,其在视图方向 d 上的颜色为:

可微深度剥离

本文提出的动态场景表示借助深度剥离算法可以渲染成图像。

研究者开拓了一个自定义着色器来实现由 K 个渲染通道组成的深度剥离算法。
即对付一个特定的像素 u,研究者进行了多步处理,末了,经由 K 次渲染后,像素 u 得到一组排序点 {x_k|k = 1, ..., K}。

基于这些点 {x_k|k = 1, ..., K},得到体渲染中像素 u 的颜色表示为:

在演习过程中,给定渲染的像素颜色 C (u),本文将其与真实像素颜色 C_gt (u) 进行比较,并利用以下丢失函数以端到真个办法优化模型:

除此以外,本文还运用了感知丢失:

以及掩码丢失:

终极的丢失函数定义为:

实验及结果

本文在 DNA-Rendering、ENeRF-Outdoor、 NHR 以及 Neural3DV 数据集上评估了 4K4D 方法。

在 DNA-Rendering 数据集上的结果如表 1 所示,结果显示,4K4D 渲染速率比具有 SOTA 性能的 ENeRF 快 30 多倍,并且渲染质量还更好。

在 DNA-Rendering 数据集上的定性结果如图 5 所示,KPlanes 无法对 4D 动态场景下的详细外不雅观和几何形状进行规复,而其他基于图像的方法产生了高质量的外不雅观。
然而,这些方法每每会在遮挡和边缘周围产生模糊的结果,导致视觉质量低落,相反,4K4D 可以在超过 200 FPS 的情形下产生更高保真度的渲染。

接下来,实验展示了不同方法在 ENeRFOutdoor 数据集上的定性和定量结果。
如表 2 所示,4K4D 在以超过 140 FPS 的速率进行渲染时仍旧取得了明显更好的结果。

而其他方法,如 ENeRF 产生了模糊的结果;IBRNet 的渲染结果包含图像边缘周围的玄色伪影,如图 3 所示;K-Planse 无法重修动态人体以及不同的背景区域。

表 6 展示了可微深度剥离算法的有效性,4K4D 比基于 CUDA 的方法快 7 倍以上。

本文还在表 7 中报告了 4K4D 在不同分辨率的不同硬件(RTX 3060、3090 和 4090)上的渲染速率。

更多细节请拜会原论文。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/bgl/68838.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com