浙大最新!不限数量!SAP3D从任意数量的图像中进行3D重建!

浙大最新!不限数量!SAP3D从任意数量的图像中进行3D重建!

首页休闲益智重建物体更新时间:2024-07-05

编辑:计算机视觉工坊
添加小助理:dddvision,备注:3D重建,拉你入群。文末附行业细分群

0.这篇文章干了啥?

这篇文章介绍了一种名为SAP3D的系统,旨在从少数未定位的图像中进行3D对象重建和新视图合成。作者提出了一个三阶段的方法:初始化相机姿态、优化相机姿态和扩展实例特定的2D扩散模型,以实现这一目标。

初始化相机姿态:使用RelPose 模型对输入图像进行相机姿态初始化。作者通过重新训练RelPose 模型来提高对未定位对象的相机姿态估计精度。

优化相机姿态:通过在测试时对初始扩散模型和相机姿态进行优化,实现从不同视角融合信息。作者使用了测试时间优化来获得实例特定的视图条件扩散模型,并改进图像的相机姿态估计,从而提高了后续新视图合成和3D重建的质量。

扩展实例特定的2D扩散模型:通过将大规模图像数据集中学习到的3D先验知识融入到3D重建过程中。作者使用了Zero-1-to-3模型作为2D扩散模型,通过测试时间优化来实现实例特定的3D先验知识。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:The More You See in 2D, the More You Perceive in 3D

作者:Xinyang Han, Zelin Gao等

作者机构:UC Berkeley,Zhejiang University等

论文链接:https://arxiv.org/pdf/2404.03652.pdf

2. 摘要

人类可以根据过去的经验从物体的二维图像中推断出三维结构,并随着观察更多图像而提高他们的三维理解能力。受到这种行为的启发,我们引入了SAP3D,一个从任意数量的未定位图像进行三维重建和新视角合成的系统。给定物体的几个未定位图像,我们通过测试时微调来调整一个预先训练好的视角条件扩散模型以及图像的摄像机姿态。调整后的扩散模型和获取的摄像机姿态然后被用作实例特定的先验,用于三维重建和新视角合成。我们表明,随着输入图像数量的增加,我们方法的性能提高,弥合了基于优化的无先验三维重建方法与基于单幅图像到三维的扩散方法之间的差距。我们在真实图像和标准合成基准上展示了我们的系统。我们的消融研究证实了这种适应行为对于更准确的三维理解至关重要。

3. 效果展示

使用一张或多张图像的3D重建。对于实际图像(左列)和合成GSO数据集中实例(右列)的SAP3D进行1、3和5个视图的定性可视化。注意,随着视图数量的增加,鹰的翅膀、绿色龟的尖刺武器和黄色兔子的花束等细节变得更加详细和准确。

SAP3D新视角的定性结果。我们展示了1、3和5个输入图像的结果。随着输入图像的增加,SAP3D提高了生成的3D细节的保真度。

4. 主要贡献

这篇文章的主要贡献是提出了一个名为SAP3D的系统,用于从少量未定位图像中进行3D物体重建和新视图合成。该系统包括三个阶段:初始化阶段、细化阶段和测试时优化阶段。通过使用视角条件的2D扩散模型和测试时优化来处理相对摄像机姿态,SAP3D能够从少量图像中生成实例特定的3D模型,从而提高了对对象形状和外观的重建质量。实验结果表明,随着输入图像数量的增加,SAP3D的性能得到了显著提高,从而证明了该系统的有效性。

5. 基本原理是啥?

该系统的基本原理是利用视角条件的2D扩散模型和相对摄像机姿态的测试时优化,从少量未定位的图像中生成实例特定的3D模型。它包括三个主要阶段:

通过结合这些阶段,SAP3D能够从少量未定位的图像中重建对象的3D结构,并合成新的视图,从而提高对对象形状和外观的理解和重建质量。

6. 实验结果

7. 总结 & 未来工作

这篇论文提出了一种系统,可以从少量图像中实现3D重建和生成新视角,并随着图像数量的增加而改进。主要贡献在于系统能够从任意数量的图像中进行3D重建和新视角生成,并且随着图像数量的增加而改进。他们讨论了两个主要的局限性,并表示未来将尝试端到端的方法来提高系统性能。这项研究为使用少量图像进行3D重建和新视角生成的方法提供了一个有效的解决方案,对未来相关领域的研究具有指导意义。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向 学校/公司 昵称(如3D点云 清华 小草莓), 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C 、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等



查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved