48.9倍加速!清华&MIT开源EfficientViT-SAM:加速分割一切!

48.9倍加速!清华&MIT开源EfficientViT-SAM:加速分割一切!

首页角色扮演倍速切割版更新时间:2024-04-26

来源:3D视觉工坊

添加小助理:dddvision,备注:SLAM,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

(SAM)是一系列在高质量数据集上预训练的图像分割模型,该数据集包含1100万张图像和10亿个掩码。SAM提供了惊人的零样本图像分割性能,并且有许多应用,包括AR/VR、数据标注、交互式图像编辑等。

但SAM的计算需求非常高,限制了其在时间敏感场景中的适用性。特别是,SAM的主要计算瓶颈是其图像编码器,在推理时需要2973 GMACs。很多可以减少计算成本,但它们都受到了显著的性能下降。

因此,这篇文章引入了 EfficientViT-SAM,利用 EfficientViT替换 SAM 的图像编码器。与此同时,保留了 SAM 中的轻量级提示编码器和掩码解码器架构。训练过程分为两个阶段。首先,使用 SAM 的图像编码器作为老师,训练 EfficientViT-SAM 的图像编码器。其次,使用整个 SA-1B 数据集对 EfficientViT-SAM 进行端到端的训练。

作者在一系列零样本基准测试中对 EfficientViT-SAM 进行了全面评估。EfficientViT-SAM 在所有以前的 SAM 模型上提供了显著的性能/效率提升。特别是,在 COCO 数据集上,EfficientViT-SAM 在 A100 GPU 上的吞吐量比 SAM-ViT-H提高了48.9倍,而且没有 mAP 下降。

下面一起来阅读一下这项工作~

1. 论文信息

标题:EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

作者:Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han

机构:清华大学、MIT、NVIDIA

原文链接:https://arxiv.org/abs/2205.14756

代码链接:https://github.com/mit-han-lab/efficientvit?tab=readme-ov-file

2. 摘要

我们提出了EfficientViT - SAM,一个新的加速分割任何事物模型族。我们保留了SAM的轻量级提示编码器和掩码解码器,同时将重图像编码器替换为Efficient Vi T。对于训练,首先从SAM - ViTH图像编码器到Efficient ViT的知识蒸馏开始。随后,我们在SA - 1B数据集上进行端到端的训练。得益于Efficient ViT的效率和容量,Efficient Vi T - SAM在SAM - Vi T - H上的A100 GPU上实现了48.9倍的TensorRT加速,并且性能没有损失。

3. 效果展示

吞吐量 vs. COCO 零样本实例分割mAP。EfficientViT-SAM 是第一个加速的 SAM 模型,能够与 SAM-ViT-H 的零样本性能相匹配/超越,实现了最先进的性能-效率权衡。

4. 基本原理

Efficientvit-SAM-XL的整体架构。 是指ResNet34的基本构建块。F-MBConv是指融合MBConv块。Efficient ViT Module是Efficient ViT的构建模块。

5. 实验结果

运行效率对比。 将EfficientViT - SAM的模型参数、MAC和吞吐量与SAM和其他加速工作进行了比较。与SAM相比,EfficientViT - SAM实现了17到69倍的令人印象深刻的加速。此外,EfficientViT - SAM虽然拥有比其他加速工作更多的参数,但由于其有效地利用了硬件友好的操作符,表现出了显著更高的吞吐量。

零样本提示分割结果。 根据点提示来评估EfficientViTSAM在分割物体时的零样本性能。初始点选为距离物体边界最远的点,每个后续点被选为距离误差区域边界最远的点,该点被定义为真实值与先前预测之间的区域。以mIoU (平均交并比)为衡量标准,在COCO和LVIS数据集上以1 / 3 / 5点击次数报告性能。与SAM相比,EfficientViTSAM表现出更优越的性能,特别是当有额外的点提示时。

零样本实例分割结果。

使用包围盒来评估EfficientViTSAM在目标分割中的零样本性能。首先将ground truth边界框输入到模型中, mIoU适用于所有物体,也适用于小型、中型和大型物体。EfficientViTSAM在COCO和上显著地超过了SAM-LVIS数据集。接下来,使用目标检测器,并使用其输出框作为模型的提示。与SAM相比,EfficientViTSAM获得了更优越的性能。值得注意的是,即使是最轻的EfficientViT - SAM版本也大大超过了其他加速工作。

6. 总结

这篇文章引入了EfficientViT - SAM,它利用EfficientViT来代替SAM的图像编码器。EfficientViT - SAM在不牺牲各种零样本分割任务性能的前提下,获得了比SAM显著的效率提升。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

下载

在公众号「3D视觉工坊」后台,回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理:dddvisiona,备注:加群 方向 学校|公司, 小助理会拉你入群。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved