报告出品方:德邦证券
以下为报告原文节选
------
1、概要
ABSTRACT 概要
2、特斯拉FSD架构详解
FSD为一套包含感知/规控/执行的全链路自动驾驶软硬件架构
FSD架构:在数据、算法、算力等各个层面打造了一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构
规划(Planning):本质是解决多物体关联路径规划问题,处理自我和所有对象的行进轨迹,指导汽车完成相应的执行动作
神经网络(Neural Networks):通过分析视频流等信息,输出完整的运动学状态(位置/速度/加速度/颠簸)控制车辆
训练数据(Training Data):通过最新的4D自动标注技术、升级模拟仿真及云端计算资源,形成数据闭环
训练基础设施 (Training Infra):包括CPU、GPU、神经网络加速器单元(Neural Network Accelerator)、AI编译器等,其中AI编译器能够支持神经网络所需的新操作,将它们映射到最佳的底层硬件资源上
AI编译与推理(AI Compiler & Inference):即如何在计算机上运行神经网络。当前的推理引擎能够将单个神经网络的执行分配到两个独立的芯片系统上执行,可以理解为有两台独立的计算机在同一台自动驾驶计算机内相互连接
2.1自动驾驶规划(Planning)——我该怎么走?
采用混合规划系统,提供最优规控解决方案
基于Vector Space的FSD路径规划,能够快速产生最优解
具体解决路径:从一组视觉测量开始,包括车道、占用率、移动物体等(这些都表现为稀疏的抽象和潜在特征),感知得到的Vector Space, 通过Vector Space规划出后续潜在目标状态,进一步考虑细分互动,得到决策规划的路径
决策树生成
• 最初用经典的优化方法来创建规划路径,随着约束条件增加,每个动作都需要1-5ms的时间
• 最终建立了轻量级可查询网络。
【Tesla车队中人类驾驶员驾驶数据】VS【宽松时间约束的离线条件下系统规划的全局最优路径】,两者不断进行对比训练。能够在100us内生成一个候选规划路径
决策树剪枝/评分
• 采用混合规划系统,将传统方法与数据驱动相结合,通过四个方法进行候选路径评估完成剪枝
基于Vector Space的FSD路径规划,能够快速产生最优解
对于未知及不确定性(corner case)的决策——通过Occupancy Network对可视区域进行建模用来处理未知不可见场景
• 需要根据这些假想的参与者做相应的保护性驾驶,将控制反应与存在可能性函数相协调,得到非常类似人的行为
至此,特斯拉FSD最终架构浮出水面:
• 首先,通过视觉感知网络生成三维向量空间,对于仅有唯一解的问题,可直接生成明确的规控方案,而对于有多个可选方案的复杂问题,使用向量空间和感知网络提取的中间层特征,训练神经网络规划器,得到轨迹分布
• 其次,融入成本函数、人工干预数据或其他仿真模拟数据,获得最优的规控方案
• 最终生成转向、加速等控制指令,由执行模块接受控制指令实现自动驾驶
算法经历多次迭代,BEV Transformer Occupancy为当前架构
升级至Occupancy能够有效优化障碍物识别问题
HydraNets(九头蛇网络)为视觉感知网络的基础结构
网络基础结构—九头蛇网络(HydraNets)由主干(Backbone)、颈部(Neck)) 与多个分支头部(Head)共同组成。主干层将原始视频数据通过残差神经网络(RegNet)及多尺度特征融合结构(BiFPN)完成端到端训练,提取出颈部层的多尺度视觉特征空间 (multiscale features ),最后在头部层根据不同任务类型完成子网络训练并输出感知结果
• 优势一:特征共享(Feature Sharing)。使用同一主干网络提取特征并共享给头部使用,可以在测试阶段分摊在车上运行的前向判断,避免不同任务之间重复计算现象,提升网络运行效率
• 优势二:任务解耦(De-Couples Tasks)。不同类型子任务之间可以进行解耦,这样可以单独处理每一项任务,对单项任务的升级不必验证其他任务是否正常,升级成本更低
• 优势三:特征缓存(Representation Bottleneck)。
因为这里存在颈部,可以将特征缓存到硬盘,具有较强的扩展性
通过端到端的感知训练模型,从数据输入到空间向量输出
Step 1 图像输入(Image Input):校准每个相机的图片,将原始12位RGB图像(而非典型的8位)输送给网络。多了4位信息能够使得动态范围提升16倍,同时减少延迟(无需在循环中运行图像信号处理ISP)
Step 2 图像校准(Rectify):通过不同的汽车采集到的数据共同构建一个通用感知网络架构,不同汽车由于摄像头安装外参的差异,可能导致采集的数据存在微小偏差,为此特斯拉在感知框架中加入了一层“虚拟标准相机(virtual camera)”,引入摄像头标定外参将每辆车采集到的图像数据通过去畸变、旋转等方式处理后,统一映射到同一套虛拟标准摄像头坐标中,从而实现各摄像头原始数据校准,消除外参误差,确保数据一致性,将校准后的数据传输给主干神经网络进行训练
Step 3 特征提取(Image Featurizers):用一组RegNet(特定残差网络,specific class of resnets)和BiFPN(加权双向特征金字塔网络)作为提取图像空间特征的主干
通过端到端的感知训练模型,从数据输入到空间向量输出
Step 4 构造空间位置(Spacial Attention):将摄像头采集到的数据通过【BEV空间转换层】构造一组3D位置,同时将图像信息作为键(key)值(value),输入给一个注意力模型(核心模块是【Transformer神经网络】)。注意力模型的输出是高维空间特征,这些高维空间特征与车辆上的里程数据进行暂时协调,来推导出运动。该方案厉害之处在于可以将地面坡度、曲率等几何形状的变化情况内化进神经网络的训练参数中
Step 5 时间对齐(Temporal Alignment):上述高维空间暂时特征经过一组反卷积,产生最终的占用率和占用率流输出。它们生成的是固定尺寸块的网格,为了提高精度,模型还生成了per volex feature MAP输入到MLP中,借助3D空间点查询(query)来获取任意点的位置和语义信息
2.2.2车道线及障碍物感知(Lanes & Objects)——周围的物体下一步去往哪里?
基于3D Occupancy迭代车道线及障碍物感知模型
早期,将车道检测问题建模为一个图像空间内实时分割的任务,只能从几种不同的几何形状中辨别车道。具体而言,可以分别出当前车道、相邻车道,能特别处理一些交叉和合并的情况,然后用粗略的地图数据对其进行增强。这种简化模型对高速这种高度结构化的路是有效的p 当前,引入Map Component,使用了低精度地图中关于车道线几何/拓扑关系的信息(车道线数量/宽度、特殊车道属性等),并将这些信息整合起来进行编码,与视觉感知到的特征信息一起生成车道线(Dense World Tensor)给到后续Vector Lane模块
问题一:如何预测车道?
问题二:如何预测道路上其他对象的未来行为
预测所有物体的属性,在实时系统上造成了一些具体实施问题。需要让对象堆栈部分实现帧率最大化,自动驾驶才能对变化的环境做出快速反应。为了尽量减少延迟,神经网络被分为两个阶段:
• 第一阶段,确定对象在3D空间中的位置
• 第二阶段,在这些3D位置取得张量,附加车辆上的额外数据和一些其他处理
这个规范步骤使得神经网络专注于计算最关键的区域,能够付出很小的延迟成本获得优异性能
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派新能源 / 汽车 / 储能
新能源汽车 | 储能 | 锂电池 | 燃料电池 | 动力电池 | 动力电池回收 | 氢能源 | 充电桩 | 互联网汽车 | 智能驾驶 | 自动驾驶 | 汽车后市场 | 石油石化 | 煤化工 | 化工产业 | 磷化工 | 基础化工 | 加油站 | 新材料 | 石墨烯 | 高分子 | 耐火材料 | PVC | 聚氯乙烯 | 绿色能源 | 清洁能源 | 光伏 | 风力发电 | 海上发电
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved