OMG-Seg:一个模型搞定全部分割任务!语义&实例&全景&交互式

OMG-Seg:一个模型搞定全部分割任务!语义&实例&全景&交互式

首页休闲益智切割一切更新时间:2024-04-28

来源:计算机视觉工坊

添加小助理:dddvision,备注:语义分割,拉你入群。文末附行业细分群

0. 写在前面

分割领域的基础任务包括语义分割、实例分割、全景分割,以及新兴的开放世界分割、文本提示分割、交互式分割等等很多种。虽然也有很多"分割一切"的工作出现,但还没有哪个模型说可以一次处理全部的任务。今天笔者为大家推荐一篇最新的开源工作Omg-Seg,声称解决了全部的分割任务。

下面一起来阅读一下这项工作~

1. 论文信息

标题:OMG-Seg: Is One Model Good Enough For All Segmentation?

作者:Xiangtai Li, Haobo Yuan, Wei Li, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, Chen Change Loy

机构:南阳理工大学S-Lab、上海AI Lab

原文链接:https://arxiv.org/abs/2401.10229

代码链接:https://github.com/lxtGH/OMG-Seg

官方主页:https://lxtgh.github.io/project/omg_seg/

2. 摘要

在这项工作中,我们解决了各种分割任务,每个任务传统上由不同或部分统一的模型来处理。我们提出了OMG - Seg,一个足以有效和有效地处理所有的分割任务的模型,包括图像语义、实例和全景分割,以及它们的视频对应物、开放词汇设置、提示驱动、交互式分割(如SAM )和视频对象分割。据我们所知,这是第一个在一个模型中处理所有这些任务并取得令人满意的性能的模型。我们证明了OMG - Seg,一个基于Transformer的编码器-解码器架构,具有特定任务的查询和输出,可以支持超过十种不同的分割任务,并且在各种任务和数据集之间显著地减少了计算和参数开销。我们严格评估了共同训练过程中任务间的影响和相关性。

3. 效果展示

OMG-Seg可以在一个框架中处理十多种不同的分割任务,包括图像级和视频级分割任务、交互式分割和开放式词汇分割。作者声称这是第一个将这四个方向统一起来的模型。

不同模型的功能比较,OMG - Seg可以在一个模型中执行各种分割任务。

4. 具体原理是什么?

Omg-Seg结构。( a ) OMG-Seg遵循Mask2Former的架构,包含一个骨干( CLIP视觉编码器),一个像素解码器和一个掩码解码器。不同之处是用于图像和视频分割的共享掩码解码器和视觉提示编码器。Omg-Seg使用了两种类型的掩码查询,即语义查询,以及编码框或点提示的位置查询。( b )掩码解码器中的一个解码器层。由于位置查询仅以图像内容和位置提示为条件,因此跳过了自注意力操作。( c ) OMG - Seg在训练和推理中的前传。Omg-Seg使用CLIP的文本编码器来表示类别名称,并通过计算掩码特征和文本嵌入之间的来分类掩码。

5. 和其他SOTA方法的对比

OMG-Seg在图像、视频、开放词汇和SAM-like任务上的实验结果,*表示在Object365数据集上预训练的模型。

6. 总结

这篇文章介绍了第一个用于图像、视频、开放词汇和交互式分割的联合协同训练框架。OMG-Seg为不同的任务使用统一的查询表示和共享的解码器,首次能够训练出一个单一的分割模型,能够在十个不同的任务中执行,显著地减少了参数大小和各种应用中模型设计的专门工程的需要。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

下载

在公众号「计算机视觉工坊」后台,回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理: dddvisiona,备注:加群 方向 学校|公司, 小助理会拉你入群。


查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved