狂揽12.5k星的Grounded SAM论文来啦！检测、分割跟踪一切！（合并工厂）

来源：计算机视觉工坊

添加v：dddvision，备注：语义分割，拉你入群。文末附行业细分群

0. 这篇文章干了啥？

去年SAM（分割一切）模型掀起了一股"一切"的浪潮，一直到现在不断有各种各样的工作提出。去年就在SAM发布后一天，国内团队就在SAM的基础上提出了Grounded-SAM，把SAM和BLIP、集成在一起，实现了分割、检测、生成一切。

Grounded SAM采用集成基础模型方法的创新视角，首次将开放集检测模型（Grounding DINO）和可提示分割模型（SAM）整合起来。基于Grounded SAM的基础和充分利用其强大的开放集分割能力，可以轻松地整合其他开放世界模型。例如与Recognize Anything（RAM）结合时，RAM-Grounded-SAM模型能够自动识别和分割图像中的物体，无需任何文本输入，从而促进自动图像注释任务的实现。通过与BLIP集成，也可以实现类似的自动图像注释能力。Grounded SAM与Stable Diffusion的修复能力结合，如Grounded-SAM-SD模型所示，可执行高度精确的图像编辑任务。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks

作者：Tianhe Ren, Shilong Liu, Ailing Zeng, Jing Lin, Kunchang Li, He Cao, Jiayu Chen, Xinyu Huang, Yukang Chen, Feng Yan, Zhaoyang Zeng, Hao Zhang, Feng Li, Jie Yang, Hongyang Li, Qing Jiang, Lei Zhang

机构：International Digital Economy Academy (IDEA) & Community

原文链接：https://arxiv.org/abs/2401.14159

代码链接：https://github.com/IDEA-Research/Grounded-Segment-Anything

2. 摘要

我们介绍了Grounded SAM，它使用Grounding DINO作为开集目标检测器来与分割模型（SAM）相结合。这种集成能够基于任意文本输入检测和分割任何区域，并为连接各种视觉模型打开了一扇门。利用通用Grounded SAM流水线可以实现多种视觉任务。例如，仅基于输入图像的自动注释管道可以通过合并诸如BLIP和Recognize everything之类的模型来实现。此外，结合稳定扩散允许可控的图像编辑，而OSX的集成有助于促进3D人体运动分析。在开放词汇基准测试中，Grounded SAM也表现出了出色的性能，在SegInW（野外分割）零样本基准测试中，Grounded DINO-Base和SAM-Huge模型的组合达到了48.7的平均AP。

3. 效果展示

这个Github项目目前已经收获12.5k star。其背后的核心思想是结合不同模型的优势，为解决复杂问题建立一个非常强大的管道。这还是一个用于组合强专家模型的工作流程，其中所有部分都可以单独使用或组合使用，并且可以用任何类似但不同的模型替换（例如用GLIP或其他检测器替换Grounding DINO用ControlNet或GLIGEN替换Stable-Diffusion/与ChatGPT组合）。

基于用户提供的任意文本输入，Grounded SAM可以同时检测和分割图像中的相应区域。它可以与其他开放世界模型无缝集成，以完成更复杂的视觉任务

4. 主要应用

4.1 Grounded SAM组成元素

（SAM） 是一个开放领域分割模型，可以通过适当的提示（如点、框或文本）"剪切"图像中的任何对象。它已经在超过1100万张图像和11亿个蒙版上进行了训练。尽管它具有强大的零样本性能，但该模型无法基于任意文本输入识别被蒙面的对象，通常需要点或框提示才能运行。

Grounding DINO是一个开放集目标检测器，可以根据任意自由形式的文本提示检测任何对象。该模型在超过1000万张图像上进行了训练，包括检测数据、视觉定位数据和图像文本对。它具有强大的零样本检测性能。然而，该模型需要文本作为输入，只能检测具有相应短语的框。

OSX是表达性全身网格恢复的最先进模型，旨在从单目图像中联合估计3D人体姿势、手势和面部表情。它首先需要检测人体框，裁剪和调整人体框，然后进行单人网格恢复。

BLIP是一个统一视觉语言理解和生成任务的视觉语言模型。在实验中使用了BLIP的图像标题模型。该标题模型可以生成给定任何图像的描述。然而，该模型无法执行对象级任务，如检测或分割对象。

Recognize Anything Model（RAM）[是个强大的图像标签模型，可以为输入图像识别任何常见类别，准确率很高。然而，RAM只能生成标签，无法生成识别类别的精确框和蒙版。

Stable Diffusion是一个图像生成模型，从训练数据的学习分布中采样图像。其最广泛使用的应用是使用文本提示生成图像。在实验中使用了其修补变体。尽管其生成结果令人印象深刻，但该模型无法执行感知或理解任务。

ChatGPT & GPT-4是使用GPT（生成预训练变压器）架构开发的大型语言模型，用于构建对话型AI代理。它经过大量文本数据的训练，可以对用户输入生成类似人类的响应。该模型能理解对话的上下文，并生成通常难以区分的适当响应，与人类的响应相似。

4.2 Grounded SAM

这项工作旨在通过结合强大的开放集基础模型来解决复杂分割问题。给定输入图像和文本提示，首先使用Grounding DINO通过利用文本信息作为条件生成对象或图像内区域的精确框。随后，通过Grounding DINO获得的注释框充当SAM生成精确掩码注释的框提示。通过充分利用这两个强大的专家模型的能力，可以更轻松地完成开放集检测和分割任务。

Grounded-SAM可以根据各种用户输入有效地检测和分割对象。其有效性不限于常见情况，还包括长尾对象类别（例如"Zale Horrida"和"Gazania Linearis"）。

4.3 RAM-Grounded-SAM：自动密集图像标注

在Grounded SAM框架中，它利用了Grounding DINO的能力。用户可以灵活输入任意类别或标题，然后系统会自动将其与图像中的实体匹配。在此基础上，可以使用图像-标题模型（例如BLIP和Tag2Text）或图像标签模型（例如RAM），将它们的输出结果（标题或标签）作为Grounded SAM的输入，为每个实例生成精确的框和蒙版。这使得整个图像可以自动标注，这显著降低标注成本，大大提高了图像标注的灵活性。

RAM-Grounded-SAM将RAM的强大标注功能与Grounded SAM的开集检测和分割功能相结合，仅使用图像输入即可实现自动密集图像注释。

4.4 Grounded-SAM-SD：高度准确和可控的图像编辑

通过将图像生成模型的强大文本-图像能力与Grounded SAM集成，可以建立一个全面的框架，支持在零部件级、实例级和语义级进行精细操作的稳健数据合成工厂。用户可以通过交互方法（例如点击或绘制边界框）在此管道中获得精确的蒙版。此外，用户可以利用地面定位的能力，结合文本提示，自动定位感兴趣的相应区域。在此基础上，借助图像生成模型的附加能力，可以实现高度精确和可控的图像操作，包括修改图像表示、替换对象、删除相应区域等。在数据稀缺的下游场景中，可以生成新数据，满足模型训练的数据需求。

Grounded SAM-SD结合了Grounded SAM的开集功能和修复功能

4.5 Grounded-SAM-OSX：可提示的人体动作分析

可以集成Grounded SAM和OSX模型，实现一种新颖的可提示（特定实例的）全身人体检测和网格恢复，从而实现可提示的人体运动分析系统。具体而言，给定一张图像和一个指向特定人物的提示，首先使用Grounded SAM生成精确的特定人体框。然后，使用OSX估计一个特定实例的人体网格来完成整个过程。

Grounded-SAM-OSX将Grounded SAM的文本提示功能与OSX的全身网格恢复功能相结合，促进了精确的人体运动分析系统。

4.6 Grounded SAM的更多扩展

除了前述的主要应用外，Grounded SAM可以通过集成更多模型来进一步扩展其利用范围。例如，在数据标注过程中，Grounded SAM可以与更快的推断SAM模型协作，例如、MobileSAM、Light-HQ-SAM和EfficientSAM。这种合作可以显著减少总体推断时间并加快标注工作流程。Grounded SAM还可以利用具有生成更高质量蒙版能力的HQ-SAM模型，提高注释的质量。在图像编辑领域，Grounded SAM还可以与新提出的生成模型（如Stable-Diffusion-XL）协同工作，实现更高质量的图像编辑。此外，它可以与LaMa和PaintByExample等模型集成，实现精确的图像擦除和定制图像编辑。Grounded SAM还可以与DEVA等跟踪模型集成，根据特定的文本提示执行物体跟踪。

5. Grounded SAM 的有效性

为了验证 Grounded SAM 的有效性，在SGinW的零样本基准上评估其性能，将 Grounding DINO Base 和 SAM-Huge 的大型模型结合起来，相较于先前的统一开放集分割模型（如 UNINEXT和 OpenSeeD，在 SGinW 的零样本设置下实现了显著的性能提升。通过引入能够生成比 SAM 更高质量的掩码的 HQ-SAM，Grounded-HQ-SAM 在 SGinW 上实现了进一步的性能提升。

6. 总结 & 展望

Grounded SAM 及其扩展的优势，在利用各种专家模型的组合完成各种视觉任务方面，可总结如下。

（1）通过组合各种专家模型，模型的能力边界可以无缝扩展。以前，可以用 n 个模型完成 n 个任务。现在，考虑到所有可能的模型组合，可以使用 n 个专家模型执行高达 2n − 1 个任务。可以将复杂任务分解为由当前可用的专家模型解决的若干子任务。

（2）通过将任务分解为若干子任务，模型组装管道更易于解释。可以观察每个步骤的输出，以获取最终结果的推理过程。

（3）通过结合各种专家模型，可以探索研究和应用的新领域，有可能产生创新的结果和技术进步。

展望：一个重要展望涉及在注释数据和模型训练之间建立闭环。通过组合专家模型，可以节省大量的注释成本。此外，在不同阶段引入人工标注者有助于过滤或微调不准确的模型预测，从而提高模型注释的质量。然后，已标注的数据不断用于进一步训练和改进模型。另一个潜在应用是与大型语言模型（LLMs）结合使用。鉴于组装的模型几乎可以处理任何计算机视觉（CV）任务，具有各种输入和输出模态，尤其是语言，LLMs 可以通过语言提示轻松调用我们的 API 以有效执行 CV 任务。最后但同样重要的是，该模型可用于生成通过结合生成模型特别是任意一对模态的新数据集。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载

在公众号「计算机视觉工坊」后台，回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群