训练难度降低!首次使用2D标签训练多视图3D Occupancy模型!

训练难度降低!首次使用2D标签训练多视图3D Occupancy模型!

首页模拟经营3D驾驶课2更新时间:2024-10-15

来源:计算机视觉工坊

在公众号「计算机视觉工坊」后台,回复「原论文」可获取论文pdf及支撑材料、代码链接

添加*dddvision,备注:NeRF,拉你入群。文末附行业细分群

0. 笔者个人体会

3D占用预测将3D场景量化为带有语义标签的网格单元,但是3D标签的注释非常繁琐,而且很多标签类别并不明确,所以很难去训练3D Occupancy的大模型。

今天笔者为大家分享一项工作RenderOcc,仅使用2D标签就可以训练3D占用模型,算是提供了一种新范式!

下面一起来阅读一下这项工作,文末附论文和代码链接~

3D视觉工坊

,赞14

1. 这篇文章希望解决什么问题?

以前方法使用昂贵的3D占用标签进行监督,而RenderOcc使用2D标签来训练3D占用网络,实际使用的是细粒度的2D像素级语义和深度监督。这里也推荐工坊推出的新课程《。

2. 具体原理是什么?

RenderOcc从多视图图像中提取NeRF风格的3D体素表示,建立每个体素的密度和语义信息,并采用体渲染技术来建立2D渲染,从而实现从2D语义和深度标签的直接3D监督。

还引入了辅助射线方法来解决自动驾驶场景中的稀疏视点问题,从相邻帧中提取辅助射线来补充当前帧的射线,并使用提出的加权射线采样策略对其进行优化,该利用连续帧为每个对象构建全面的2D渲染。

3. 和其他SOTA方法对比如何?

在Occ3D-nuScenes数据集上的3D占有率预测性能,RenderOcc的性能甚至与使用3D标签完全监督的模型相当。

3D占用预测在Semantic Kitti数据集上的性能对比。

nuScenes上的定性结果对比,与使用3D标签监督的基线相比,RenderOcc显示出对物体边界和小物体的更敏锐的感知。这里也推荐工坊推出的新课程《。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

下载1

在公众号「3D视觉工坊」后台,回复「3d001」,即可获取工业3D视觉(结构光、缺陷检测、三维点云)、SLAM(视觉/激光SLAM)、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文。

下载2

在公众号「3D视觉工坊」后台,回复「3d002」,即可获取巴塞罗那自治大学3D视觉课件、慕尼黑工业大学3D视觉和视觉导航精品课件。

下载3

在公众号「3D视觉工坊」后台,回复「3d003」,即可获取相机标定、结构光、三维重建、激光-视觉-IMU-GPS多模态融合SLAM、LOAM、ORB-SLAM3,深度估计、模型部署、3D目标检测等学习课件。注:非完整版。

计算机视觉方向交流群成立啦

目前咱们计算机视觉工坊已经建立了多个社群,包括SLAM工业3D视觉自动驾驶三维重建无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光(面/线/散斑)、机械臂抓取(2D/3D)、2D缺陷检测、3D缺陷检测、6D位姿估计、相位偏折术、Halcon、光场重建、摄影测量、阵列相机、偏振三维测量、光度立体视觉、激光雷达、综合群等。

[SLAM]视觉SLAM、激光SLAM、ORB-SLAM、Vins-Fusion、LOAM/LeGo-LOAM、cartographer、VIO、语义SLAM、滤波算法、多传感器融合、多传感器标定、MSCKF、动态SLAM、MOT SLAM、NeRF SLAM、FAST-LIO、LVI-SAM、LIO-SAM、事件相机/GPS/RTK/UWB/IMU/码盘/TOF(iToF/dToF)/激光雷达/气压计/毫米波雷达/RGB-D相机/超声波等、机器人导航、综合群等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪、综合群等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理微信: dddvision,备注:加群 方向 学校|公司, 小助理会拉你入群。


查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved