6DoF 互动探险和德爷一起火山引擎空间重建和虚实融合技术 (互动互动)

与行业内常见的不具备互动性的 3DoF 实拍纪录片以及不具备写实性的游戏引擎制作的 6DoF 纪录片不同，《跟着德爷闯东非》纪录片的拍摄采用空间重建技术及虚实融合技术，兼顾实拍和虚拟互动，以全新的 6DoF 互动体验，增强了 VR 内容的沉浸性和交互性，让用户跟随德爷的脚步沉浸式体验从城市“跃入”荒野的快感。

全新 VR 空间互动性的挑战和难点

传统 VR 实拍视频的交互通常采用不同选项触发不同结局的 AB 型互动方式，而《跟着德爷闯东非》想要实现的是全新的 VR 空间互动，用户可以抓起虚拟世界中的物体完成任务，比如和德爷一起钻木取火，也可以在场景中自由走动，在非洲草原和德爷一起追捕猎杀珍珠鸡，实现全新的交互并达到高沉浸感，突破传统视频的界限。

而想要实现全新的交互和体验高沉浸感，需要做到：

空间重建，复原现实世界

空间重建技术能够复原现实世界的场景和物品并转化为数字资产，是计算机视觉和摄影测量中的重要研究课题，也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。

音量

网页全屏

全屏

目前，火山引擎视频云平台具备自动化空间建模链路，助力大场景重建，可支持采集 RGBD/RGB 数据（无人机、手持采集等）自动化上传云平台，2-4 小时后自动产出建模结果，建模精度可达 1cm～2cm。同时，火山引擎视频云的云渲染可视化系统，联合自研动态传输算法，可实现高度真实感的模型渲染。

图：火山引擎视频云三维重建平台

火山引擎多媒体实验室将神经辐射场技术（NeRF）与自研大场景建模技术相结合，研发行业领先的大场景光场重建方案，实现高度真实感（psnr>30)的场景重建、复现及后编辑。

在具体实践的场景中，动态物体会使 NeRF 重建出现伪影，借助自研动静态分割、影子检测、inpainting 等算法，对场景中和几何不一致的区域进行提取、修复。同时借助自研高精度 SFM 算法框架，对场景进行高精度的几何重建，包括相机参数估计以及稀疏、稠密点云生成。另外，对场景进行拆分以减小单次训练资源消耗，并可做分布式训练、维护。在神经辐射场训练过程中，针对室外无边界大场景，团队通过优化策略以提升该场景下的新视角生成效果，比如，通过在训练中同时优化位姿提高重建精度、基于哈希编码的层次化表达提升模型训练速度、借助外观编码提升不同时间采集场景的外观一致性、借助 mvs 稠密深度信息提升几何精度等。

以团队同毫末智行合作为例，完成单路采集以及多路合并的 NeRF 重建，相关成果已在毫末 AI Day 发布。

音量

网页全屏

全屏

音量

网页全屏

全屏

虚实融合，提升用户体验

为提升用户沉浸式体验，火山引擎多媒体实验室自研 虚实融合技术，将环境实拍全景图与场景模型进行对齐、融合。 团队利用先进的人工智能技术，建立全景图图像特征与模型关键点的匹配关系，通过 PnP 算法以及光束法平差算法将全景图注册至场景模型坐标系，实现尺度、位置的统一，从而实现模型渲染与实拍全景视频渲染的统一，达到虚实融合的效果。

同时，为扩大用户体验的自由度，团队针对该场景自研非球面天空盒渲染，克服传统的球面全景图渲染仅在图像采集中心视觉一致的缺陷，进一步提升实拍全景图渲染模型与地形模型的匹配程度，以实现更大运动范围的视觉一致性，进一步提升沉浸式体验。

音量

网页全屏

全屏

音量

网页全屏

全屏

物品重建，高精度还原细节

在《跟着德爷闯东非》互动纪录片中，会有用户虚拟体验探险剧情的桥段，例如钻木取火，木棍训蛇等。为了带来真实的体验，道具往往是在实际拍摄过程中就地取材，有细长的树枝，薄薄的小刀，还有形态复杂的篝火堆。这些道具的重建本身是比较有挑战的，再加上整个拍摄过程比较紧张，留给扫描的时间并不充裕。为此，火山引擎视频云团队沉淀出一套采集方便，操作简单，能还原各类复杂物品的重建系统。

为了重建形状比较复杂的道具（例如狭长的木棍、锋利的小刀）。火山引擎视频云采用符号距离场（Signed Distance Fields，简称 SDF）的技术方案来表示三维物体，结合 深度学习 的方法克服了以上重建难点。对于如何监督神经网络使其准确地拟合该 SDF，火山引擎视频云先用运动恢复结构（Structure from Motion，简称 SfM）算法，精确计算拍摄图像的相机姿态，再利用 可微渲染 的方法将 SDF 所表示的空间信息渲染到图像上，把渲染得到的图像和该视角下采集的图像做比较，不断优化神经网络，使 SDF 在各个采集视角下的渲染结果尽可能与实际采集的图像一致。为了进一步提高重建精细度，在优化 SDF 的时候加入稀疏重建得到的三维点做约束，能更好的还原物体的 细节特征 。