特斯拉 AI DAY:激光雷达算啥?

特斯拉 AI DAY:激光雷达算啥?

首页角色扮演特斯拉模拟器中文版更新时间:2024-05-11

如果你今天在社交网络上看到特斯拉 AI DAY 的直播链接并且碰巧在 2 小时 6 分左右进入了直播,那你很可能和我一样被接下来几分钟看到的内容惊到。

这种惊讶先会先来自于下图这个极具科幻色彩的拟人机器人,它叫 Tesla Robot,是这次 AI DAY 的彩蛋,一部和特斯拉汽车共用视觉摄像头和神经网络计算芯片的机器人。

可就在我的期待被瞬间拉高,幻想能看到这款机器人走上发布会舞台并说出那句「So it is with considerable pride that I introduce a man who's been like a father to me - Elon Musk」的时候,眼前又发生了这样的一幕:

看到这段 COS 尬舞,那些和我一样期待被拉高的观众应该在心里触发了疑惑三连:

「What?」

「就这?」

「RNM,退钱!」

不过玩笑归玩笑,如果这次 AI DAY 的直播你是从头看到尾,那么你应该知道这段舞蹈是今天这 3 个小时的发布会里为数不多的轻松时刻。

整场发布会的信息密度之大、涉及的技术领域之广、口音之重,我可能需要数周时间才能深入解读,在本篇我们先简要归纳一下这次发布会信息。

自动驾驶实现的基础

能力之一:视觉

发布会开头的内容还算熟悉,特斯拉 AI 总监 Andrej Karpathy 上台介绍了一下特斯拉在做的事情:打造一套像人脑那样基于视觉的计算机神经网络系统。

眼睛的替代品最好找,在特斯拉现售的车型上,这部分由 8 颗 ADAS 摄像头组成,这些摄像头可以在车身周围获取 360° 的无死角视野。

在这之后,整套系统还需要有视网膜、多目视觉的视交叉、视叶神经束等一系列复杂的神经网络,这些环节则主要需要通过软件和算法来实现。

在识别视觉特征的环节,大脑是通过视网膜读取信息,电脑则是通过计算比对像素的排列来识别。特斯拉在这个环节的软件特征提取层中做了不同区域的分工和相互配合,于是在特征的识别上可以做到结合环境情况推测那些不够明显的特征,比如下图中已经基本是马赛克分辨率的车辆。

针对不同类型的特征,例如交通灯、交通线、交通参与者等等特斯拉建立很多个这样的特征识别指令,这些指令可以对同一素材进行多任务处理式的特征识别。特斯拉将这套识别网络称作「HydraNet」。

然后是老版本软件里的环境建模追踪器「occupancy tracker」,可以实现带时间轴的跨画面图像拼接,构成一个车身周围的环境建模,但问题有两个,一个是环境建模工作量巨大,通过 C 软件代码去实现这个步骤非常复杂,另一个问题是建模精度不够。

所以特斯拉希望改变策略,原先的做法是先对每个摄像头分画面预测然后再进行拼接和信息融合,现在的思路是直接先把 8 个摄像头的素材拼接好,拟合成一个实时的立体空间然后再来进行各种预测。

这个过程看起来简单做起来难,在解决其中的很多关键难题以后,最后做出来的多摄像头视觉在感知精度上有显著提升。

尽管如此,通过多摄像头视觉也没法解决的问题还有特征被遮挡时的预测以及对于已经过道路标识的持续记忆

这时候特斯拉在预测模型中加入了对特征的随时间移动预测,以及对道路标识的距离记忆。有这样的措施以后在视野被短暂遮挡的情况下,系统仍可以根据遮挡前特征的轨迹「推测」遮挡视野后的物体移动轨迹,以及记下驶过路段各种路标的能力。

在这之后,系统里还加入了「Spatial RNN」空间递归神经网络,在车辆视野范围内进行有选择性地预测和记录环境中的某类特征(可以同时进行好几种)。Andrej Karpathy 举的一个例子是系统在有车辆遮挡的时候不会记录道路环境,等遮挡的车走开之后才会记录,个人理解就是「少做无用功」。然后同样的路多走几趟这些被记录的环境特征还可以构成特征地图。

以上措施一起工作下总的效果非常可观,比如在景深速度探测上,图中的绿线是毫米波雷达的数据,单摄像头视觉预测出的黄线数据比较一般,多摄像头视觉预测的蓝线数据与雷达基本一致,提升明显。所以用 Andrej 的话说多摄像头视觉方案已经可以替代毫米波雷达。

以上就是特斯拉对环境感知预测的重要内容,Andrej 在发布会上表示这些内容仍有改进空间,比如延迟方面团队还在探索预融合感知的策略,以及处理数据的成本等等。

能力之二:规控

车辆规控的核心目标是实现安全、舒适、效率三者的最佳平衡

对应的两个大挑战,一个是规控算法的最优解具有很深的本地化特性,A 地区的最优解对于 B 地区可能就不适用了,对于不同地区无法「一视同仁」。

第二个挑战在于实际行驶中影响规控策略的变量非常多,车辆需要控制的参数也非常多,而车辆需要计划接下来 10 - 15 秒应该做什么,这需要非常大量的实时计算。

以图中场景为例,车辆需要在路口之后向左并两次线到蓝线车道并且完成左转,于是但现在面临这些考虑:

  1. 左侧车道后方有两台车快速接近;

  2. 下个路口前,要在短距离内成功完成两次并线;

系统会对此模拟出多种策略,然后找出其中可以实现上述要求的策略。而且在实际的行驶中,除了规划自身行驶路径,还需要预测其他交通参与者的路径。在可行策略中在按照「安全、效率、舒适达到最佳平衡」的原则进行路径优化。当规划做好以后,剩下的事情就是控制车辆按规划的方案行驶。

然而在更开放和无序的道路场景下,规控的复杂性会提高很多,比如下图的这个停车场场景,如果设定的路径搜寻逻辑为欧几里德距离算法,系统需要尝试 398,320 次才能成功算出进入车位的路径。

如果做一些优化,在搜寻逻辑中加入一条「遵循停车场的地标指引方向」,那么系统尝试 22,224 次以后就可以找到进入车位的路径,相比第一种策略试错次数减少了 94.4%。

接下来再深入一些,算法改为蒙特卡洛树搜索,逻辑改为神经元网络策略和价值方程,最后系统仅需尝试 288 次就可以找到进入车位的路径,相比已经优化过的第二种方案,试错再减少 98.7%。

这个案例中也可以看出,不同场景下规控系统中采用的逻辑和算法对于最终的计算量的有着非常大的影响,如果方法对了,事半功倍。

感知和规控两大关键能力实现的自动驾驶框架图最后如下,本篇就不再做过多展开。

AI 驾校

有了框架,还需要做的事情是把框架中神经网络训练到更高的能力,这好比人类有眼睛作为感知、大脑加手脚作为规控系统以后,还需要积累驾驶经验学习驾驶技巧。让机器学习开车,也需要一个 AI 驾校,而特斯拉的 AI 驾校规格自然也不低。

数据标记是个大工作

数据在丢给系统学习之前需要进行标记,人工标记的部分特斯拉没有外包,公司内有一支 1,000 人级的数据标记团队来做这个事情。

随着时间点的推移,特斯拉标记的数据也是与日俱增,标记类型也从开始的在 2D 图像上标记演化至直接在带时间坐标的 4D 空间上标记。

不过数据标记的重点还是自动标记,比如输入行驶素材后系统可以自动标记车道线、路肩、路面、人行道等等。

在这一基础上,经过同一区域的特斯拉车型够多的时候就可以将这片特定区域的道路都标记起来。这些标记出来的数据可以用于道路环境的模型重建。

这些数据并非用作高精地图,也不会一直保存在车辆系统上,只用作训练,为了确保重建道路模型的质量,还会需要人工去剔除优化一些噪点。

标记的特征也不只限于常见的车道线和路肩之类,围墙、路障等等都可以标记。

另一个对于前面规控算法中遮挡预测非常有用的是遮挡透视标记。下图中绿圈实际被遮挡的物体会以透视的方式标记出来,系统可以知道在被遮挡的时候物体是如何移动的,进而可以有相应的学习策略。

利用这些标记措施最后可以构建出非常拟真的环境模型,这样的建模中可以进行具体和有针对性的算法训练。

一个场景搞定的情况下,可以从车辆标记好的数据中搜索类似场景。比如前车行驶中被烟雾或者其他干扰因素遮挡的案件,一周时间可以在队列里找出 1 万个实际场景,然后可以利用这些「同类考题」对神经网络进行快速的泛化训练。

真题卷之外,还要做模拟卷

2019 年马斯克在自动驾驶日上曾说过,除了通过收集真实的道路环境训练算法,特斯拉其实也有做大量模拟测试,而且特斯拉打造的模拟器可能是全球最棒的之一。

这次 AI DAY 上官方对这套系统也进行了介绍,首先特斯拉阐述了模拟器很有帮助的三种情况:

  1. 少见的罕见场景,比如图中的主人带宠物在高速上跑步;

  2. 特征难以实现标记的场景,比如众人过没有交通灯的马路;

  3. 某段道路尽头。

总的来说我的理解就是有不正常行为的场景、特征标记不过来的场景以及很少去的场景,这些时候利用可以自定义的模拟器能对数据量起到一定补充。

而且也因为模拟器中自定义程度高,在针对传感器的测试中可以人为制造挑战,比如设定噪点、曝光、反射率、热气流折射、动态模糊、光学畸变之类,验证系统的抗干扰性。

为了模拟出更多的场景,目前这套模拟器中已经做了上千种车辆、行人以及其他道具的模型,模拟器中道路总长超过 2,000 英里。

于是一套场景重建的流程就出来了:首先是遇到真实的场景,通过自动标记进行第一层重建,然后在第一层重建的基础上在模拟器中再做出场景还原。

在这样的一所 AI 驾校里,特斯拉通过路上的车辆源源不断地收集各种「真题」素材,这些素材经过标记、模拟重建之后有了「模拟题」,系统在考砸零损失的「模拟题」里摸爬滚打之后经验提升,做「真题」的能力也随之提高。按照开发人员制定的「考纲」还可以出一些特殊场景的「提高卷」。

现在的训练设备

目前用在市售特斯拉车型上的 FSD Computer,也就是 HW 3.0 大家应该也比较熟悉了,这块诞生于 2019 年的双 72 TOPS 算力 SoC 芯片是车辆的核心计算单元,采用了专用于神经网络加速计算的架构。其他内容本篇就不作过多介绍了。

AI 验证测试方面,特斯拉准备了超过 3,000 个 FSD Computer、专门的设备管理软件以及定制化的测试计划,每周会运行超过 100 万次的算法验证测试。

神经网络的训练上,特斯拉用了 3 大计算中心,其中自动标记的计算中心有 1,752 个 GPU,其余两个用来训练的计算中心一个有 4,032 个 GPU,另一个有 5,760 个 GPU。

这些计算中心的性能客观来说已经非常强大,只是对于特斯拉来说依然不够,于是特斯拉自己设计了一款专门用于机器学习训练的硬件。

专用超算 & 机器人

A super fast training computer

关于 Dojo 的传言已经有一段时间,关于它的介绍我们依然从研发之初的目标开始,三个方向分别是最强的 AI 训练性能,能带动更大的更多的神经网络以及高能效和低成本。

关于 D1 芯片的详细设计思路中非常重要的一点在于「专芯专用」,排布方式、带宽容量、节点架构等等一切都围绕实现最佳的神经网络训练而施行,最后 7nm 的 D1 芯片单颗浮点算力达到 BF16/CFP8 下 362 TFLOPs ,FP32 下为 22.6 TFLOPs

最后计算部分由 25 个 D1 芯片组成的「算砖」一块的算力达到 9 PFLOPs,I/O 带宽到达 36 T/S,散热功率可以达到 15 kW。

120 块这样的「算砖」组成的超算系统,算力可以达到 1.1 EFLOP,在同等的成本下,性能提升了 4 倍,能效提升了 30%,占地减少了 80%

这是个什么概念我已经无法形容了,我看不懂,但我大受震撼。

Tesla Bot

最后是开头那个机器人,尬舞的那段是真人 COS,实际的 Tesla Bot 参数如图。

在我意料之外又是情理之中的是,这个机器人采用了 Autopilot 的摄像头作为视觉感知,采用了 FSD Computer 作为计算核心。

于是有了一个非常惊人的事:在多相机神经网络、基于神经网络的规化、自动标记、算法训练等一系列的内容上,Tesla Bot 有很多内容可以用现成的,虽然一台都还没造,但它可能已具备全世界智能机器人里最强的规模化优势

在我看来,这相当于给竞争对手们判了一个无声的死缓。

写在最后

看到这里的时候如果你已经忘了文章的标题,那说明你已经认同标题想传达的内容了。

特斯拉的视觉感知方案能做到的事情,其实远比普通大众以为的要多得多,规模化效应的思路在基于神经网络的视觉方案中已经开始有所体现了。

不得不说特斯拉确实在很早的时候就把牛吹出去了,但视觉感知最不擅长的景深和速度探测也是直到前几个月才过了那个超越毫米波雷达的拐点,什么时候到国内现在也还是未知。

作为国内消费者我可能很长一段时间还体验不到这些技术带来的便利,但不管是技术路线的实现还是长足战略规划的布局上,特斯拉依然是处于领先的状态,在 Dojo 的加持下这种差距可能还会被拉大。

然后关于特斯拉做 Dojo 超算和机器人,则又是一个通过规模效益减少训练边际成本的做法,而且两者的规模效应还是相辅相成的。

用同样的方式击败不一样的对手,也或许是 AI DAY 让我感触最深的地方。


查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved