清华最新开源 | 万能3D分割一切！

妖气游戏网

清华最新开源 | 万能3D分割一切！

首页休闲益智切割一切更新时间：2024-05-11

作者：泡椒味的口香糖 | 来源：3D视觉工坊

在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接

添加*dddvision，备注：NeRF，拉你入群。文末附行业细分群

0. 笔者个人体会

今天笔者将为大家分享清华大学和阿里巴巴最新的开源方案OmniSeg3D，号称万能3D分割！旨在一次性对3D场景中的任何目标进行分割，并且不受目标数量和类别限制，同时反映固有的层次结构。

1. 先来看看具体效果

笔者感觉OmniSeg3D这项方案的意义不仅仅在于提出了一种分割策略，还在于提供了一个GUI来提高3D标注效率！在用户界面上点几下就ok，再也不用一个个拉锚点了~

下面一起来阅读一下这项工作

OmniSeg3D将多视角图像、不一致且类别不确定的二维分割作为输入，然后通过分层对比学习框架输出一致的三维特征场（a）。整个OmniSeg3D是完全交互式的GUI，支持层次分割（b），多目标选择（c）和整体离散化（d）。其中越红表示相似性越高，越蓝表示相似性越低。

即使是滕王阁这么复杂的建筑物，也只需要点击几下就实现了完整拆解！

一键点击，最复杂的小目标也可以轻松分割！

2. 具体原理是什么？

OmniSeg3D的核心思想是，在3D空间中进行特征场优化的分层对比学习。对于每个输入的RGB图像（a），应用2D分层建模来获得块索引图和相关矩阵（b）。在具体的训练过程中，使用基于NeRF （或网格）从3D空间渲染特征（c），并将分层对比学习（d）应用于渲染的特征，以优化用于分割的特征场。

再说一下分层表示的具体原理：对于每个RGB图像，使用基于点击的2D分割器获取2D二值Mask（a），但直接应用SAM这种传统方法来直接重叠的话会导致层次信息的丢失（b）。所以OmniSeg3D是基于块进行建模，有效地保留了像素之间的层次关系。每幅图像的分层表示包括一个块索引图和一个相关矩阵，其中不同patch的相关性是通过投票策略来评估。

3. 再来看看和同类方法的对比

之前的自监督DINO方法很难分割出清晰的物体边界；LSeg倒是很好地整体的语义信息，但无法区分实例之间的差异；爆火的SAM在细粒度分割方面表现很好，但偶尔会出现多个对象或较大区域无法分组的情况；而OmniSeg3D效果最好，证明分层建模有效地从多个视图中聚合了碎片化的部分-整体相关性。

定量分割精度对比，mIoU和精度都很高~

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

,

大家还看了

也许喜欢

更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved