助力一切YOLO涨点！Shape-IoU：更准确的边界框形状和尺度！（形状配对3D）

来源：计算机视觉工坊

在公众号「计算机视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接

添加*dddvisiona，备注：自动驾驶，拉你入群。文末附行业细分群

1. 写在前面

边界框回归损失在目标检测中非常重要，典型Loss就是IoU、GIoU、CIoU、SIoU。改动方案基本上都是在IoU上添加新的几何约束（GT框和 Anchor 框的距离、形状和角度），但是都忽略了边界框自身的形状和尺寸的影响。今天笔者为大家推荐一篇最新的开源工作Shape-IoU，借助边界框本身的形状和尺度来计算损失，使边界框回归更加准确，可以有效地提高YOLO系列检测器的性能！

下面一起来阅读一下这项工作~

2. 摘要

作为检测器定位分支的重要组成部分，边界框回归损失在目标检测任务中发挥着重要作用。现有的边界框回归方法通常考虑GT框和预测框之间的几何关系，利用边界框的相对位置和形状来计算损失，而忽略了边界框的形状和尺度等固有属性对边界框回归的影响。为了弥补现有研究的不足，本文提出了一种关注包围盒自身形状和尺度的包围盒回归方法。首先，我们对边界框的回归特性进行了分析，发现边界框本身的形状和尺度因素会对回归结果产生影响。基于以上结论，我们提出了Shape IoU方法，该方法可以通过关注边界框本身的形状和尺度来计算损失，从而使得边界框回归更加准确。最后，我们通过大量的对比实验对我们的方法进行了验证，结果表明我们的方法可以有效地提高检测性能，并且优于现有的方法，在不同的检测任务中达到了先进的性能。

3. 效果展示

图中左边和右边的回归样本仅在包围盒形状上存在差异，且两个回归样本的偏差分别对应GT盒长边方向和短边方向相同，从图中可以看出GT盒形状因子造成的回归效果差异。右图的回归效果优于左图。

看一下SIoU和Shape - IoU损失在Yolov7和Yolov8上的表现，测试数据集是PASCAL VOC。Shape - IoU可以助力YOLOv7和v8涨点。

4. 具体原理是什么？

如图所示，边界框回归样本A和B中GT框的尺度相同，而C和D中GT框的尺度相同。A和D中GT盒的形状相同，而B和C中GT盒的形状相同。C和D中包围盒的尺度大于A和B中包围盒的尺度，图a中所有包围盒的回归样本具有相同的偏差，形状偏差为0。图a与图b的不同之处在于，图b中所有包围盒回归样本的形状偏差相同，偏差为0。并观察到如下发现：

图a中A和B的偏差相同，但IoU值存在差异。

图a中C和D的偏差相同，但IoU值存在差异，且相比图a中的A和B，IoU值差异不显著。

图b中A和B的形状偏差相同，但IoU值存在差异。

图b中C和D的形状偏差相同，但IoU值存在差异，与图a中A和B相比，IoU值差异不显著。

图a中A和B的Io U值存在差异的原因是它们的GT盒形状不同，偏离方向分别对应它们的长边和短边方向。对于A，其GT盒沿长边方向的偏差对其影响较小。而对B而言，短边方向的偏差对其Io U值的影响更大。与大尺度包围盒相比，小尺度包围盒对Io U值的变化更敏感，GT盒形状对小尺度包围盒的Io U值影响更显著。由于A和B比C和D的尺度小，在形状和偏差相同的情况下，Io U值的变化更显著。同理，在图b中，从形状偏差的角度分析包围盒回归，发现回归样本中GT盒的形状会影响其在回归过程中的Io U值。

基于以上分析，可以得出以下结论：

（1）假设GT盒不是正方形，有长边和短边，当偏差和形状偏差相同且不全为0时，回归样本中包围盒形状和尺度的不同会导致其Io U值的差异。

（2）对于相同尺度的包围盒回归样本，当回归样本的偏差和形状偏差相同且不全为0时，包围盒的形状会对回归样本的Io U值产生影响。包围盒短边方向的偏差和形状偏差对应的Io U值变化更为显著。

（3）对于具有相同形状包围盒的回归样本，当回归样本偏差和形状偏差相同且不全为0时，相比于规模较大的回归样本，规模较小的包围盒回归样本的Io U值受GT盒形状的影响更为显著

5. 和其他SOTA方法对比如何？

SIoU和Shape - IoU损失在Yolov8上的表现，测试数据集是VisDrone2019。

SIoU和Shape - IoU损失在Yolov5上的表现，测试数据集是AI-TOD。

6. 总结

本文为大家推荐了一篇最新的开源工作Shape - IoU。这篇文章指出现有Loss侧重于考虑GT框与预测框之间的几何约束，而忽略了边界框本身的形状、尺度等几何因素对回归结果的影响。然后提出了Shape - IoU方法，可以关注包围盒本身的形状和尺度来计算损失，从而提高精度。最后使用SOTA单阶段检测器在不同规模的数据集上进行了一系列的对比实验，证明Shape - IoU优于现有的方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载

在公众号「计算机视觉工坊」后台，回复「3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理微信: dddvisiona，备注：加群方向学校|公司, 小助理会拉你入群。

查看全文