伴随着深度学习和3D重建技术的发展,近期南洋理工大学的科研人员,提出一种新方法,仅仅只需要3张图片,即可生成高质量的3D场景模型!论文团队来自于南洋理工大学的四名中国留学生,他们目前在NTU的MMLab,此前介绍的文本生成图像Text2light等应用也均出自MMLab,今年ICCV2023上,MMLab团队大获成功共计20篇论文被收录!
在上个月,英伟达重磅公开了AI新模型“Neuralangelo”,这个模型可以轻松“读懂”视频,将二维的视频,转换成细节层次极其丰富的3D模型,准确度和兼容性极高。
给定一个随机视频,AI就能自动提取并搭建人物的高精度3D模型,这样的场景往往出现在各大科幻片的CG中,而英伟达将这一场景变成事实,也就是说,未来开发者们随手拿起手机摄影,即可转换成相应的高精3D模型。
英伟达称,这项技术结合英伟达的算力支撑,具备极高的商业价值,可以用于游戏开发、建筑设计、数字考古、艺术以及工业机器人等领域!
除了用视频直出3D模型外,南洋理工大学的科研团队,在近日发表了一篇名为《SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis》的论文,介绍了一种名为SparseNeRF的新方法,即用少量镜头的图片,来合成高精度高质量的3D场景。
在现实世界的场景中,要做到一比一建模是相当困难,像刺客信条对巴黎圣母院的建模,或是黑神话悟空团队对山西古建筑体的建模,都是需要耗费大量时间和金钱的项目,特别是一些稠密的场景,建模起来价格极其昂贵!
而且,这对图片的质量和数量也有极高的要求,在稀疏视图图像下,很难合成高质量的3D模型,对那些没有拍到的新视角,更是难上加难。
NTU提出,利用预训练深度模型或粗略深度图的深度先验,来进行NeRF(神经辐射场)三维重建,作者提出局部深度排序约束(local depth ranking)和空间连续性约束(spatial continuity constraint),以确保合成视图的一致性和连贯性。
SparseNeRF主要由四个部分构成——NeRF、RGB 颜色重建模块、深度排序蒸馏模块和空间连续性蒸馏模块,利用稀疏视图输入合成新颖视图。对于视角缺少的问题,利用来自预训练深度估计模型解决,作者还提出了一种局部深度排序正则化方法,可从粗糙深度图中蒸馏提炼鲁棒性更强的深度先验信息,进一步提高少视角NeRF的性能。
在标准数据集和名为 NVS-RGBD(包含真实世界深度图)的新数据集上的性能均优于现有方法,该论文团队来自于南洋理工大学的四名中国留学生,他们还提供了代码和数据集以供进一步研究。在未来应用方面,可以集成到iPhone上进行场景合成,或者是放在游戏或者工业界那种大规模3D合成的场景。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved