来源:3D视觉工坊
在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf链接
添加*dddvisiona,备注:深度估计,拉你入群。文末附行业细分群
0. 笔者个人体会
在动态场景下估计相机位姿很麻烦,传统方法一般是先用目标检测/语义分割/光流/场景流模型剔除动态特征点,再用静态背景去估计运动。但在拥挤场景下,画面中大部分像素都是动态目标,直接剔除特征点会导致用来解算位姿的匹配对根本不够用。
今天笔者将为大家分享ICCV 2023开源的一项工作,实现了拥挤场景下的旋转位姿估计,号称在相同时间内比同类算法减少了50 %的误差。而且这篇文章还提出了一个拥挤场景数据集BUSS,由17个拥挤场景的视频序列组成。
下面一起来阅读一下这项工作,文末附论文和代码链接~
1. 这篇文章希望解决什么问题?
拥挤场景下的运动估计非常困难,特征点法更侧重宽基线下的匹配,光流方法通常是用RANSAC处理局部误检的光流和运动目标。这篇文章希望使用光流法来估计拥挤场景下的旋转位姿,知道旋转位姿后也就很容易去求平移位姿。这里也推荐工坊推出的新课程《。
2. 具体原理是什么?
先来看看运行效果:红色矢量表示与旋转估计R兼容的光流,灰度矢量表示与R无关的光流,三个坐标轴在3D中表示旋转空间,每一行表示与单个光流矢量兼容的一维旋转集合。红线(红色流矢量)在单个小面元内相交,表示它们的光流兼容相同的旋转。受其他运动影响的灰线以非结构化的方式散开,与上面的灰度光流相对应。
具体原理是,作者在SO ( 3 )上引入了一种新的广义Hough变换,基于投票机制找到在高动态场景中与光流最兼容的相机旋转,而且不需要RANSAC。
作者还建立了一个拥挤场景数据集BUsy Street Scenes ( BUSS ),通过一个手机在拥挤城市拍摄,并配备IMU。整个数据集共17个序列,图像分辨率为1920x1080,帧率30fps,并使用它们自己的算法生成旋转真值,还用RAFT生成光流。
3. 和其他SOTA方法对比如何?
看一下BUSS和现有数据集的对比,BUSS主要有三个特点:
1、由手持相机拍摄,引入高度可变的相机运动;
2、包含高动态拥挤场景;
3、提供旋转真值。
BUSS上的旋转位姿估计精度和运行时间对比,优于次优方法25 %,速度超过400倍,均值标准误差小于1.3 %。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
下载
在公众号「计算机视觉工坊」后台,回复「 3DCV」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。
3D视觉方向交流群成立啦
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:
[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
[无人机]四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
大家可以添加小助理*dddvisiona,备注:加群 方向 学校|公司, 小助理会拉你入群。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved