清华最新开源 | 万能3D分割一切!

清华最新开源 | 万能3D分割一切!

首页休闲益智切割一切更新时间:2024-05-11


作者:泡椒味的口香糖 | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf、代码链接

添加*dddvision,备注:NeRF,拉你入群。文末附行业细分群

0. 笔者个人体会

今天笔者将为大家分享清华大学和阿里巴巴最新的开源方案OmniSeg3D,号称万能3D分割!旨在一次性对3D场景中的任何目标进行分割,并且不受目标数量和类别限制,同时反映固有的层次结构。

1. 先来看看具体效果

笔者感觉OmniSeg3D这项方案的意义不仅仅在于提出了一种分割策略,还在于提供了一个GUI来提高3D标注效率!在用户界面上点几下就ok,再也不用一个个拉锚点了~

下面一起来阅读一下这项工作

OmniSeg3D将多视角图像、不一致且类别不确定的二维分割作为输入,然后通过分层对比学习框架输出一致的三维特征场(a)。整个OmniSeg3D是完全交互式的GUI,支持层次分割(b),多目标选择(c)和整体离散化(d)。其中越红表示相似性越高,越蓝表示相似性越低。


即使是滕王阁这么复杂的建筑物,也只需要点击几下就实现了完整拆解!

一键点击,最复杂的小目标也可以轻松分割!

2. 具体原理是什么?

OmniSeg3D的核心思想是,在3D空间中进行特征场优化的分层对比学习。对于每个输入的RGB图像(a),应用2D分层建模来获得块索引图和相关矩阵(b)。在具体的训练过程中,使用基于NeRF (或网格)从3D空间渲染特征(c),并将分层对比学习(d)应用于渲染的特征,以优化用于分割的特征场。

再说一下分层表示的具体原理:对于每个RGB图像,使用基于点击的2D分割器获取2D二值Mask(a),但直接应用SAM这种传统方法来直接重叠的话会导致层次信息的丢失(b)。所以OmniSeg3D是基于块进行建模,有效地保留了像素之间的层次关系。每幅图像的分层表示包括一个块索引图和一个相关矩阵,其中不同patch的相关性是通过投票策略来评估。

3. 再来看看和同类方法的对比

之前的自监督DINO方法很难分割出清晰的物体边界;LSeg倒是很好地整体的语义信息,但无法区分实例之间的差异;爆火的SAM在细粒度分割方面表现很好,但偶尔会出现多个对象或较大区域无法分组的情况;而OmniSeg3D效果最好,证明分层建模有效地从多个视图中聚合了碎片化的部分-整体相关性。

定量分割精度对比,mIoU和精度都很高~

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved