近日,计算机视觉科学家在重构视野所不可达的隐藏场景信息领域又有新的进展,科学家通过图像处理及重构技术,能让我们看到隐藏在角落周围的物体以及物体的移动,甚至听到隔音窗内的密谈、看到大雾后的物体等。这些技术的发展,不仅在军事及间谍领域有吸引人的应用,在无人驾驶汽车、机器人视觉、医学成像、空间探索以及搜索救援等领域都有潜在的应用。
图 | 从阴影中重构隐藏在角落周围的物体。(来源:Quanta Magzine)
早在 2012 年,计算机视觉科学家 Antonio Torralba 在西班牙海岸度假时,就曾注意到酒店房间的墙壁上出现了一些杂散的阴影,但却并未发现这些阴影的投射来源。最终,Torralba 发现墙壁上那些斑驳的“补丁”并不是什么阴影,而是他窗外露台的一个暗淡的、倒置的图像。在这里,窗户就像是一个最简单的针孔相机,窗外光线通过窗户这个小孔在另一侧形成一个倒立的像,但是这个像在室内光亮的墙壁上几乎不可辨别。然而,这却让 Torralba 意识到,这个世界充满了我们看不到的视觉信息。
图 | Bill Freeman(左)和Antonio Torralba,MIT计算机视觉科学家。(来源:Lillie Paquette / MIT School of Engineering)
“我们虽然注意不到这些隐藏的图像,”Torralba 说,“但它们一直都是存在的。”
这一经历让麻省理工学院(MIT)的 Torralba 教授及其同事 Bill Freeman 教授对这种无处不在的现象产生了极大的兴趣。他们将这些由窗户、角落、室内植物以及其他常见物体对其周围场景产生的微弱图像的现象称为“意外相机”(accidental camera)。这些图像要比于正常物体暗差不多 1000 倍,通常无法通过裸眼辨别。Freeman 解释说:“我们做的就是想办法把这些图像提取出来并变得可见。”
图 | Torrablba教授发现“意外相机”的酒店房间的窗外场景(1)、室内房间墙壁上微弱的图像(2)、通过硬纸板遮挡窗户减小“小孔”尺寸所得的更清晰的图像(3)、倒置图像后获得的窗外场景的投影图像(4)。(来源:Antonio Torralba and William T. Freeman)
随后,两人研究了这些“远在天边近在眼前”的视觉信息究竟有多少。在 2012 年的第一篇论文中,Freeman 和 Torralba 指出,只需对房间墙壁上的光线进行拍摄,用像 iphone 这样常见的相机就行,就能通过图像处理获得窗外的场景信息。在 2017 年的研究中,该团队又称:仅需拍摄街角附近的地面,就能发现街角另一侧有人在移动。今年夏天,该团队展示了他们可以通过拍摄室内植物,然后从植物叶子所投下的不同阴影中,重建出房间其余地方的三维图像。此外,他们还能将树叶变成一个“视觉麦克风”(visual microphone),通过放大它们的振动来听清人们在说什么。
该音频是 2014 年由研究者通过隔音窗户所拍摄的一个空薯片袋的震动所重构出来的,有趣的是这个的原音最初是由托马斯·爱迪生在 1877 年用留声机录下的第一段音频。
非视线成像(non-line-of-sight imaging)自 2012 年 Torralba 和 Freeman 发现“意外相机”,以及同年来自麻省理工学院的 Ramesh Raska 领导的另一独立研究组所发表的另一篇里程碑式论文以来,这种能够“看到”盲区并能推断出那些隐藏信息的技术——称为“非视线成像”(non-line-of-sight imaging)——便一发不可收拾了。
2016 年,美国国防高级研究计划局(DARPA)启动一项价值 2700 万美元的项目——“利用主动光场根本性提高可见度”(Revolutionary Enhancement of Visibility by Exploiting Active Light-fields,REVEAL),并向美国几家新实验室提供充足的资金。这在一定程度上是基于科学家前期的研究成果的。
从那以后,研究者又有了一系列新的见解以及图像处理上的数学技巧,这让“非视线成像”这一技术更加的强大和实用。除了显而易见的军事及间谍应用之外,研究人员将这项技术应用于自动驾驶汽车、机器人视觉、医学成像、天文学、空间探索和搜索救援等任务中。
据 Torralba 称,他们开始进行这项研究的时候并未想过会有什么特殊的应用,只是单纯的想要研究这些图像形成的基础以及到底是什么扮演了相机的作用,沿着这条路走就自然而然走向了对光线行为以及光线如何与环境中的物体及表面相互作用的全面研究。然后,他们就开始看到一些甚至别人从未想过要寻找的视觉信息。Torralba 指出:心理学研究表明,人类真的不擅长解析阴影。原因之一可能是由于我们所看到的许多物体实际上并非阴影,最终我们的眼睛也失去了理解阴影的能力。”
意外相机(Accidental Cameras)通常,那些携带着视野之外的场景信息的光线,不断地碰到墙壁和其他表面,并最终反射到我们的眼睛里。但是,为什么最终的视觉信息会如此微弱呢?原因是有太多这样的光线信息从四面八方传来,它们互相掩盖了彼此。
要想形成一幅图像,就必须严格限制光线落在一个表面上,从而形成对某一特定场景的成像,这就是针孔相机的作用。最初在 2012 年,Torralba 和 Freeman 的看法是我们所处的环境有很多物体和特征会自然地限制光线,从而形成一些微弱但足以被计算机探测到的图像。
通常,针孔照相机的孔径越小,得到的图像就越清晰,因为这种情况下被成像物体上的每一个点只会发射出一条具有正确角度的光线并通过针孔。Torralba 房间的窗户(作为针孔)尺寸太大,从而无法产生清晰的图像。并且,Torralba 和 Freeman 也知道,一般来说这类可用的“意外针孔相机”是非常稀少的。但是,他们发现由任意尺寸较小的、遮光的物体所构成的“逆针孔相机”(anti-pinhole camera, or pinspeck camera),到处都能成像。
设想一下,你正在通过窗帘缝隙拍摄室内的图像,但是基本上看不到什么,突然你的视野里出现一个人的手臂。这时,通过比较在有无手臂出现的情况下墙面光线的强度,就能重构出场景的一些信息。因为在第一段视频中射向墙面的一组光线会在第二段视频中被手臂短暂地挡住,通过从后一个图像减去前一个图像的数据,就能提取出被胳膊挡住的那一组光线,而这正代表了房间某一部分的图像。
除了通过“意外相机”采集光线微小的强度变化之外,Freeman 他们还设计了检测及放大微小颜色变化的算法,比如由于血液流入流出引起的人脸颜色的微小变化以及微小运动等,这就是用空薯片袋“窃听”的诀窍。现在,研究者能够很容易识别百分之一像素级别的微小运动,通常这类运动都是湮没在噪声中的。他们的方法就是利用数学变换将图像转化为正弦波,而在这个转换的空间中,信号并不受噪声影响,因为正弦波代表很多个像素的平均值,因此噪声就被分散开来了。因此,研究者就能检测到视频序列中前一帧到后一帧中正弦波位置所发生的变化,然后将这些变化放大,最后把数据再转换回来。
目前,研究者已经开始着手汇总并集成这些能够探测“盲区”视觉信息的各种技术。去年 10 月,Freeman 当时的研究生 Katie Bounman(现供职于哈佛史密森天体物理学中心)的研究指出,建筑物的各个角落都能作为相机,并能对拐角处的场景信息进行粗略的描绘。
就像针孔相机和“逆针孔相机”中用到针孔和小遮挡物一样,各种棱角也会限制光线的传播。只需利用普通的记录设备,甚至是 iPhones 这样常见的相机,Bouman 团队对建筑物拐角处的半影区——由拐角另一侧盲区传来的一组光线所形成的阴影区域——进行了拍摄,发现了有趣的现象。如果一个穿红衣服的人在拐角另一侧行走,红衣服会向半影区投射一部分红光,当行人走动时,这些红光也会随之扫过半影区。这在人的肉眼看来并无明显变化,但在图像处理后却一目了然。
图 | 通过拍摄(1)中墙角附近地面上模糊的半影区,就能获得(2)中拐角另一侧的场景信息。当盲区中的物体移动时,其向半影区投射的光线会以相对于墙壁的不同角度而扫过。在(3)中,这些细微的强度和颜色的变化通常是肉眼不可见的,但通过算法来增强,就能获得物体移动的信息,比如(4)中一个人移动和(5)中两个人移动。(来源:Antonio Torralba and William T. Freeman 等)
在今年 6 月的突破性工作中,Freeman 团队从靠近墙壁的叶状植物所投下的阴影中重构出整个房间的“光场”——即关于整个房间光线强度和方向的图像。树叶就像一个个挡光物,每一片都会遮挡不同部分的光线。研究者将每片树叶的阴影与其余阴影做对比,就能提取出它所遮挡的那部分光线,从而解开一部分不可见场景的图像。最后,将视差(parallax)考虑进去后,研究人员就能将这些图像拼起来实现对整个场景的重构。
这种光场技术所获得的图像要比早期“意外相机”的结果清晰很多,因为在算法中加入了外界场景的先验知识。比如,已知的室内植物形状、自然图像趋于平滑的假设以及其他的先验知识,使研究人员能够推断噪声信号,从而有助于得到更清晰的图像。正如 Torralba 所说,光场技术“需要了解大量的环境信息来进行重建,但它同时也(为我们)提供了大量的未知信息”。
散射光图:MIT 计算机视觉科学家 Ramesh Raskar 开创了一种主动非视线成像技术。
(来源:Courtesy of ACM SIGGRAPH 2017)
当 Freeman、Torralba 及其团队沉迷于发现那些我们“视而不见”但却一直存在的图像时,在 MIT 校园的另一处,计算机视觉科学家 Ramesh Raskar(曾受邀参加 TED 演讲)的目标似乎更加明确。他采用了一种“激光主动成像”(active imaging)的方法:利用昂贵、专门设计的相机-激光系统,实现对拐角处场景的高分辨率成像。
图 | 在主动非视线成像中,激光射向墙面并反射到障碍物后隐藏的物体上,从物体上散射的光反射经过墙壁再次反弹回来的方向,利用这个反射光就可以对物体进行三维重建。(来源:© 2018 Stanford Computation Imaging Lab)
2012 年,Raskar 及其团队终于实现了五年前的想法。他们开创了一项新技术,用激光脉冲照射墙壁,以使一小部分散射光能够在一些障碍物周围反射回来。在每一个脉冲后的瞬间,用一个“超高速扫描相机”(streak camera)探测墙壁所反射回来的光子,超高速扫描相机能以每秒数十亿帧的帧频记录单个光子。通过测量返回光子的飞行时间,研究人员就能计算其飞行距离,从而重建对光子进行散射的障碍物后隐藏物体的三维几何细节。其中一个复杂的问题是,必须用激光扫描整个墙壁才能形成三维图像。“举个例子,角落里隐藏有一个人,从他的头部、肩部和膝盖三个部位各有一个特定的点,这三个点反射的光可能会同时到达相机。但是,当我们稍微调整激光的照射位置,这三个点发射的光到达相机的时间就会不一样了”,Raskar 说,“所以,必须把所有的信号都整合起来并解出这个‘逆问题’,从而重建这个隐藏的三维几何体”。
图 | 利用反射光对障碍物另一边隐藏的兔子进行三维重建。(来源:© 2018 Stanford Computation Imaging Lab)
最初,Raskar 团队用来解决这个“逆问题”的算法需要大量的计算,光设备就耗资 50 万美元。现在,他们在简化计算和削减成本方面已经取得了重大进展。今年 3 月份,Nature 杂志刊发的一篇论文为高效、低成本的拐角处隐藏物体三维成像定了一条新的标准。文中成功对拐角处的一只只兔子雕像进行三维成像。该论文的作者,来自斯坦福大学的 Matthew O’Toole、David Lindell 和 Gordon Wetzstein 设计了一种强大的新算法来解决这类“逆问题”,并且使用的是一种相对便宜的、帧速率较低的 SPAD 相机。作为其中两位作者早期导师的 Raskar 高兴的称这项工作“非常聪明”,并称这是“我最喜欢的论文之一。”
先前的算法都曾被一个过程性细节所拖累:研究者通常选择从墙上的不同位置探测返回的光子,而不是激光指向的位置,这样相机就可以避免(收集)激光的后向散射光。但是,斯坦福大学的研究者通过将激光和相机指向几乎相同的点,能使出射和射入的光子映射出相同的“光锥”(light cone)。每当光从一个表面散射出去后,就会形成一个不断膨胀的“光子球”,随着时间的延伸,这个光子球的轨迹就会形成一个光锥。论文作者之一,Matthew O’Toole(已从斯坦福大学转去卡内基梅隆大学)把物理学的光锥(注:20 世纪早期,由爱因斯坦的老师赫尔曼·明科夫斯基提出)转换成一个简明的数学表达,将光子飞行时间与散射表面位置联系起来,称之为“光锥变换”(light cone transform)。
现在,自动驾驶汽车已经部署了用于直接成像的激光雷达系统(LIDAR),可以预想未来有一天也会配置上 SPAD 相机用于对拐角处“盲区”的成像。“在不久的将来,这些(激光-SPAD 相机)传感器将会以手持的形式出现”,Rasker 团队 2012 年开创性论文的第一作者 Andreas Velten 预言说。目前,Andreas Velten 在威斯康星大学麦迪逊分校(University of Wisconsin, Madison)带领着一个主动成像的研究小组。
“现在的任务是‘进入更复杂的场景’以及真实的场景”,Velten 说,“而不是精心设计一个带有白色物体和黑色空间的模拟场景。我们要的是一个全自动的’傻瓜相机’”。
找到物体的位置Freeman 团队的研究人员已经开始集成被动成像和主动成像这两种技术,博士后 Christos Thrampoulidis 的一篇论文表明,在用激光进行主动成像时,角落周围如果有一个已知形状的物体构成“逆针孔相机”,就能用来重构隐藏的场景而根本不需要光子飞行时间等信息。“这样的话,我们就可以用普通的 CCD 相机来完成场景重构”,Thrampoulidis 说。
有朝一日,非视线成像技术或许也能用来帮助救援队、消防队以及自主机器人。目前,Velten 正在与 NASA 喷气推进实验室合作,进行一项旨在对月球上洞穴内部进行远程成像的项目。与此同时,Raskar 团队已经利用他们的方法来阅读一本闭合的书的前几页,以及看到浓雾背后一小段距离的场景。
除了音频重建之外,Freeman 的运动放大算法在健康和安全设备上可能会派上用场,或者用来检测微小的天文运动。来自纽约大学和 Flatiron 研究所 (一所由西蒙斯基金会资助的研究机构) 的天文学家和数据科学家 David Hogg 说,这个算法“是一个非常好的想法”,并且“我们一定要在天文学中应用它”。
当被问及有关隐私的问题时,弗里曼说道:“这是我整个职业生涯都在不断思考的问题,我想了很多很多”。Freeman 说,当他开启自己的职业生涯时,他并不想从事任何有关潜在军事或者间谍应用的工作。但随着时间的推移,他开始认为,技术是一种工具,而工具能以多种途径使用。如果你极力避免任何可能用于军事目的的技术,那么你将什么也做不了。即使在军事应用情况下,工具被如何使用也是一个非常广泛的选择。有时候可能会帮助人们免于攻击者的击*。总的来说,能够找到隐藏物体的位置总是件好事。
不过,让他兴奋的并不是技术的潜力,而仅仅是发现了那些“视而不见”的隐藏信息。他说:“这个世界充满了许多尚未发现的东西。”
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved