48.9倍加速！清华&MIT开源EfficientViT-SAM：加速分割一切！（倍速切割版）

来源：3D视觉工坊

添加小助理：dddvision，备注：SLAM，拉你入群。文末附行业细分群

0. 这篇文章干了啥？

（SAM）是一系列在高质量数据集上预训练的图像分割模型，该数据集包含1100万张图像和10亿个掩码。SAM提供了惊人的零样本图像分割性能，并且有许多应用，包括AR/VR、数据标注、交互式图像编辑等。

但SAM的计算需求非常高，限制了其在时间敏感场景中的适用性。特别是，SAM的主要计算瓶颈是其图像编码器，在推理时需要2973 GMACs。很多可以减少计算成本，但它们都受到了显著的性能下降。

因此，这篇文章引入了 EfficientViT-SAM，利用 EfficientViT替换 SAM 的图像编码器。与此同时，保留了 SAM 中的轻量级提示编码器和掩码解码器架构。训练过程分为两个阶段。首先，使用 SAM 的图像编码器作为老师，训练 EfficientViT-SAM 的图像编码器。其次，使用整个 SA-1B 数据集对 EfficientViT-SAM 进行端到端的训练。

作者在一系列零样本基准测试中对 EfficientViT-SAM 进行了全面评估。EfficientViT-SAM 在所有以前的 SAM 模型上提供了显著的性能/效率提升。特别是，在 COCO 数据集上，EfficientViT-SAM 在 A100 GPU 上的吞吐量比 SAM-ViT-H提高了48.9倍，而且没有 mAP 下降。

下面一起来阅读一下这项工作~

1. 论文信息

标题：EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

作者：Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han

机构：清华大学、MIT、NVIDIA

原文链接：https://arxiv.org/abs/2205.14756

代码链接：https://github.com/mit-han-lab/efficientvit?tab=readme-ov-file

2. 摘要

我们提出了EfficientViT - SAM，一个新的加速分割任何事物模型族。我们保留了SAM的轻量级提示编码器和掩码解码器，同时将重图像编码器替换为Efficient Vi T。对于训练，首先从SAM - ViTH图像编码器到Efficient ViT的知识蒸馏开始。随后，我们在SA - 1B数据集上进行端到端的训练。得益于Efficient ViT的效率和容量，Efficient Vi T - SAM在SAM - Vi T - H上的A100 GPU上实现了48.9倍的TensorRT加速，并且性能没有损失。

3. 效果展示

吞吐量 vs. COCO 零样本实例分割mAP。EfficientViT-SAM 是第一个加速的 SAM 模型，能够与 SAM-ViT-H 的零样本性能相匹配/超越，实现了最先进的性能-效率权衡。

4. 基本原理

Efficientvit-SAM-XL的整体架构。 是指ResNet34的基本构建块。F-MBConv是指融合MBConv块。Efficient ViT Module是Efficient ViT的构建模块。

5. 实验结果

运行效率对比。 将EfficientViT - SAM的模型参数、MAC和吞吐量与SAM和其他加速工作进行了比较。与SAM相比，EfficientViT - SAM实现了17到69倍的令人印象深刻的加速。此外，EfficientViT - SAM虽然拥有比其他加速工作更多的参数，但由于其有效地利用了硬件友好的操作符，表现出了显著更高的吞吐量。

零样本提示分割结果。 根据点提示来评估EfficientViTSAM在分割物体时的零样本性能。初始点选为距离物体边界最远的点，每个后续点被选为距离误差区域边界最远的点，该点被定义为真实值与先前预测之间的区域。以mIoU (平均交并比)为衡量标准，在COCO和LVIS数据集上以1 / 3 / 5点击次数报告性能。与SAM相比，EfficientViTSAM表现出更优越的性能，特别是当有额外的点提示时。

零样本实例分割结果。

使用包围盒来评估EfficientViTSAM在目标分割中的零样本性能。首先将ground truth边界框输入到模型中， mIoU适用于所有物体，也适用于小型、中型和大型物体。EfficientViTSAM在COCO和上显著地超过了SAM-LVIS数据集。接下来，使用目标检测器，并使用其输出框作为模型的提示。与SAM相比，EfficientViTSAM获得了更优越的性能。值得注意的是，即使是最轻的EfficientViT - SAM版本也大大超过了其他加速工作。