勇闯停车场（地下停车场3D）

在你或丰富或才刚刚开始的驾驶生涯里，到底什么才（曾）是你认为最棘手的问题？是一个没有信号灯帮助的左转，还是逼仄空间里的侧方位停车？

其实在这样的战斗中，你并不孤单。因为自动驾驶汽车们也同样在艰难地学习如何处置类似的问题……有些时候你的难也同样是它的难，比如没有信号灯特别帮助的左转——在自动驾驶测试中，这甚至是一个专门的技术点；有些你的难对它却不在话下，比如各种花式停车；而同理，有些对你不在话下的司空见惯，对它却是万般的为难，比如如何顺利地从（非完全全自动驾驶车辆统治的）停车场中逃出生天。

地图

现在全自动驾驶汽车的学习轨迹俨然分成了两个流派，一支是Elon Musk为首的视觉AI自动学习派，主张让汽车AI大脑根据所“见”进行思考和决策；另一支则是以Waymo为代表的精密地图制导派，主张在布署全自动驾驶汽车之前，得先为其绘制极为精密的3D地图。

对前一种视觉AI派来说，地下停车场的视线清晰程度与信号传输的稳定性是其需要解决的问题；而对后一种地图派来说，停车场更是如“魔鬼地带”的存在，这个场地不但不像公共道路会严格按照市政规划和相关规范来建造施工，其整体布局还会根据建筑的实际情况来进行灵活规划，比如车位的长宽高、车位间隔、动线设置等等都有极大的灵活性和随意性。

对工程师们来说，每多为自动驾驶汽车开放一个停车场，便意味着得先用传感器阵列——激光雷达、摄像仪和中短雷达组合收集此停车场的三维空间的物理信息：路缘高度、车道宽度、是否有排水沟、可进入区和禁区甚至坡道斜度……“引导了汽车对世界的理解”。

障碍

如果说挨个儿为停车场绘制地图是“折磨”工程师的话，那么精确识别并合理处置停车场里的障碍则是对自动驾驶车辆自己的一大考验。毕竟停车场里，各种障碍的存在具有极大的偶然与随机性。随意举例：

超市停车场里经常被随意放置的购物车（上图为Waymo在在加利福尼亚州前城堡空军基地的停车场测试区域进行的停车场测试，其中就设置了购物车干扰项）；

垃圾箱、消防设施、防洪沙袋、推拉门等等设备设施（上图为Google街景中在亚利桑那州钱德勒的垃圾箱区域，此数据输入供Waymo学习使用）；

再比如柱子——把柱子单独列出不仅因为停车场内林立的柱子是制造最多视线盲区的元凶，最重要的是之前提到的垃圾箱、消防设施、防洪沙袋等等设备设施往往都依柱设立，那么该让全自动驾驶车辆以多大的半径绕柱而行，留出多少冗余度，都是需要额外的标注与训练。

当然还有冷不丁会从各个柱子间走出（甚至是蹿出）的人或者宠物。

意图

在停车场尤其在拥挤的停车场中找车位，不仅是对驾驶技术的考验，也是开启一局“猜猜猜”的大型策略游戏——这位在车上打电话的小哥哥是在等人还是准备驶出？那位抱着购物袋走向车的小姐姐仅是放置物品抑或准备离开？这辆在车位里挪动的车，是预备驶出还是正在停入？

以上情形都需要在第一时间及时地判断出结果，否则斗智斗勇的结果就是眼睁睁看着其它车辆纷纷成功入位，只有你，还凄苦地在车道间绕行，或者不得不停在离电梯或入口奇远无比的偏僻区域。

随意性

在高速公路行驶时的调整机率极低，城市道路的行驶调整也有章可循，除非城市大型改造，否则不仅临时流控、道路施工管制……都得遵守严格的交规准则，设置完善的路标路障。但停车场则不然，一位管理人员、一排锥筒便能改变整个场内的动线流向，一把车位锁、一条警戒线便能重新定义此车位或整片区域的行驶规则。

从道路进入停车场的闸口，就像打开了一道新世界的大门。从一个规则、秩序的法治世界进入了一个更带有人治意味的封闭空间，而随机应变这对人类大脑轻松愉悦的四个字，恰恰是全自动驾驶车辆大脑或者说整个机器学习中难如登天的软肋。如何解决？让我们听听Waymo的工程师们怎么说——

“Waymo的自动驾驶车辆采用神经网络执行许多驾驶任务：从检测物体、预测其他人的行为方式到规划汽车的下一步动作。传统上，训练个体神经网络需要数周的微调和实验，以及大量的计算能力。

现在Waymo从达尔文进化论中汲取灵感，与DeepMind合作，使学习与培训更加有效和高效。”

—— Yu-hsin Chen

Waymo高级软件工程师

和人类学习要根据学习目标制定学习计划一样，通常情况下，在机器学习中训练神经网络首先也是向网络交代任务，并对其学习任务的执行进行“分级”。神经网络通过不断尝试这些任务并根据其等级来调整自身的学习。

而机器学习网络的性能在很大程度上取决于研究人员为其布署的培训方案，而每次研究人员根据任务的完成情况进行调整的程度被称为学习率。而学习率越高，机器学习的每次迭代效果就越好（研究人员们通常也会让学习率在一定幅度内调整，不至于使整个学习网络的性能波动过大）。

但是如此寻找最佳培训方案（或“超参数方案”）的过程通常只能通过工程师的经验和直觉，或广撒网式的搜索来实现。换句话说在这样的随机搜索中，研究人员得在多种类型的超参数上应用了许多随机超参数调度，训练出许多各自独立的差异学习网络，然后在其中进行筛选……

然而，由于进行并行训练大量模型需要海量的计算，实在过于昂贵。于是研究人员通常采用的办法是：在训练期间监视网络并手动调整随机搜索，定期剔除最弱的表现者并释放出资源以从头开始用新的随机超参数训练新网络。

以上的描述无论你有没有耐心仔细看完，但光这些关键词：经验和直觉、撒网式搜索、随机参数、手动调整、从头开始……光听听都足够累了，也不知道从事这般大海捞针样带有一定碰运气成分工作的研究人员，会不会每天开工之前拜拜锦鲤。

于是，为了提高这一过程的效率，DeepMind和Waymo的研究人员设计了一种基于进化竞争的自动确定良好超参数调度的方法（简称PBT）——

与传统方法一样，PBT也是从随机超参数启动的多个网络开始的。网络定期评估，并以进化的方式相互竞争“生存”。如果一个“样本”表现不佳，那么它就会被一个表现更好的成员的“后代”所取代。后代是表现较好的成员的副本，具有略微突变的超参数。而此时PBT的最大优势出来了：不要求研究人员从头开始重新开始培训，因为每个后代都会继承其父网络的完整状态，并且在整个培训过程中会积极更新超参数，而不是在培训结束时再来进行这项工作。