训练难度降低！首次使用2D标签训练多视图3D Occupancy模型！（3D驾驶课2）

来源：计算机视觉工坊

在公众号「计算机视觉工坊」后台，回复「原论文」可获取论文pdf及支撑材料、代码链接

添加*dddvision，备注：NeRF，拉你入群。文末附行业细分群

0. 笔者个人体会

3D占用预测将3D场景量化为带有语义标签的网格单元，但是3D标签的注释非常繁琐，而且很多标签类别并不明确，所以很难去训练3D Occupancy的大模型。

今天笔者为大家分享一项工作RenderOcc，仅使用2D标签就可以训练3D占用模型，算是提供了一种新范式！

下面一起来阅读一下这项工作，文末附论文和代码链接~

3D视觉工坊

，赞14

1. 这篇文章希望解决什么问题？

以前方法使用昂贵的3D占用标签进行监督，而RenderOcc使用2D标签来训练3D占用网络，实际使用的是细粒度的2D像素级语义和深度监督。这里也推荐工坊推出的新课程《。

2. 具体原理是什么？

RenderOcc从多视图图像中提取NeRF风格的3D体素表示，建立每个体素的密度和语义信息，并采用体渲染技术来建立2D渲染，从而实现从2D语义和深度标签的直接3D监督。

还引入了辅助射线方法来解决自动驾驶场景中的稀疏视点问题，从相邻帧中提取辅助射线来补充当前帧的射线，并使用提出的加权射线采样策略对其进行优化，该利用连续帧为每个对象构建全面的2D渲染。

3. 和其他SOTA方法对比如何？

在Occ3D-nuScenes数据集上的3D占有率预测性能，RenderOcc的性能甚至与使用3D标签完全监督的模型相当。

3D占用预测在Semantic Kitti数据集上的性能对比。

nuScenes上的定性结果对比，与使用3D标签监督的基线相比，RenderOcc显示出对物体边界和小物体的更敏锐的感知。这里也推荐工坊推出的新课程《。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载1

在公众号「3D视觉工坊」后台，回复「3d001」,即可获取工业3D视觉（结构光、缺陷检测、三维点云）、SLAM（视觉/激光SLAM）、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文。

下载2

在公众号「3D视觉工坊」后台，回复「3d002」,即可获取巴塞罗那自治大学3D视觉课件、慕尼黑工业大学3D视觉和视觉导航精品课件。

下载3

在公众号「3D视觉工坊」后台，回复「3d003」,即可获取相机标定、结构光、三维重建、激光-视觉-IMU-GPS多模态融合SLAM、LOAM、ORB-SLAM3，深度估计、模型部署、3D目标检测等学习课件。注：非完整版。

计算机视觉方向交流群成立啦

目前咱们计算机视觉工坊已经建立了多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光(面/线/散斑)、机械臂抓取（2D/3D）、2D缺陷检测、3D缺陷检测、6D位姿估计、相位偏折术、Halcon、光场重建、摄影测量、阵列相机、偏振三维测量、光度立体视觉、激光雷达、综合群等。

[SLAM]视觉SLAM、激光SLAM、ORB-SLAM、Vins-Fusion、LOAM/LeGo-LOAM、cartographer、VIO、语义SLAM、滤波算法、多传感器融合、多传感器标定、MSCKF、动态SLAM、MOT SLAM、NeRF SLAM、FAST-LIO、LVI-SAM、LIO-SAM、事件相机/GPS/RTK/UWB/IMU/码盘/TOF（iToF/dToF）/激光雷达/气压计/毫米波雷达/RGB-D相机/超声波等、机器人导航、综合群等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪、综合群等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群