端到端：自动驾驶的终极形态？（汽车驾驶大师）

从去年8月份的直播测试，到如今推送到了超1.5万台员工车型上，特斯拉FSD V12迎来了马斯克口中所说的里程碑时刻。

升级日志说明中言简意赅地说明了V12版本的重大转变，用数百万视频片段训练而成的端到端神经网络，取代了超过30万行显式的C 代码。

一位特斯拉员工车主这样评价到，“特斯拉应该更早地转向端到端（End to End），而不是浪费时间和精力迭代用于驾驶控制的C 代码，保留C 几乎不可能实现真正的FSD”。

在这之中，被提到最多的一个问题就是“端到端”，那么问题来了，究竟什么是“端到端”呢？

想要了解端到端，我们还要从2023年火爆的ChatGPT说起。

“端到端”自动驾驶

2023年，OpenAI携ChatGPT/GPT-4席卷全球，掀起了一场大模型竞备赛，微软率先完成AI改造，将GPT-4接入Bing/Office等全线产品，创造了AI时代全新的工作范式，并将AI的革命之火烧到各行各业。

而ChatGPT的背后，就是一个典型的端到端模型，输入文字语句，直接就能得到想要的回答。在这个过程中，AI模型经过深度的学习，从客户需求端洞察出发，到满足客户需求，实现客户满意端去，提供端到端业务交付服务。

ChatGPT的“两端”分别为文字语句和回答，而拥有一套端到端AI算法方案的FSD V12软件“两端”则为道路场景和车辆控制。说白了就是，摄像头获取的图像数据输入到神经网络，网络能够直接输出车辆控制指令如转向、加速、刹车等等，中间便是特斯拉端到端大模型。

那端到端对于自动驾驶有哪些提升？

过去的自动驾驶是基于既定好的规则实现的，比如变道、加速、超车、泊车等等，都是靠工程师编程来实现，每一项典型功能汇聚在一起组成了智能驾驶，这样一来就形成了一个处理模块多、步骤多且十分复杂的流程，这些加起来需要几十万行代码。

传统自动驾驶路线就好比两个人开一辆车，一个人负责监测周围的环境，另一个人只负责控制汽车，在整个行驶过程中，需要先监测周围环境，根据周围环境判断汽车该往哪个方向走，随后向另一个负责驾驶的人传达信息，后者只需要根据前者的信息来操作方向盘、制动器和刹车。

在这种架构下，不同模块间就相当于不同的人，负责决策的人是不能直接看到环境的，需要“观察员”转告，因此将不可避免地产生误差。

与传统自动驾驶路线不同，端到端大模型取代了此前用于感知、描述、预测以及规划的多个模块，让自动驾驶直接从一端输入图像数据，一端输出操作控制，更接近人类的真实驾驶。

这一驾驶方案更加接近最真实的人类驾驶，只需要一个人来开车，从眼睛到双手转动方向盘、脚踩刹车或制动板，整个过程一气呵成，而这背后最关键的因素便是人类的大脑中枢神经系统，而端到端大模型的作用则类似于人类的大脑中枢神经系统。

也就是说，端到端去掉了规则主导的架构，完全交给神经网络主导，神经网络通过观察大量的数据来自我学习如何做出像人一样的驾驶决策。举例来说，有了端到端，FSD不再会因为识别出STOP标识就乖乖地停在路边了，而是“模仿和学习”人类老司机的驾驶行为。

简单理解则是传统自动驾驶根据逻辑行车，而端到端则是模拟人类本身。

基于深度学习的自动驾驶

如何让自动驾驶变得更像人类驾驶，此时就需要更大的模型，而大模型往往包含了上亿的参数量，例如前面提到的ChatGPT，从GPT-1到GPT-3，模型的参数量从1.1亿个增长到了1750亿个，几年的时间内增长了一千多倍。

模型参数量的不断提升也会让模型的能力持续提高，自动驾驶领域同理，只需投入更多的驾驶数据，即可对模型水平进行提升。用来训练的数据越多、算力越强，模型的性能也就越好。

也就是说，决定端到端模型性能上限的就是数据和算力。

而这两项也是特斯拉品牌的优势所在，庞大数据的背后，是特斯拉全球 450 万的销量支撑。据悉，在FSD V12版本训练初期，当输入超过100万个视频后，基于神经网络的自动驾驶系统才开始表现良好。

而在去年年初，特斯拉便投喂了约1000 万个特斯拉车主的驾驶视频片段，而这还远不是上限；特斯拉在全球各地近200万辆的车队，每天也会提供约1600亿帧视频用于训练。特斯拉预计，未来用于训练的视频将达到数十亿帧。

在每台特斯拉车辆上，还有一个潜在的“影子模式”（Shadow Mode），随时为数据采集做着准备，这给特斯拉带来了指数级的数据增长和极丰富数据多样性。

截至目前，特斯拉FSD累积行驶里程已超5亿英里（约8亿公里），Autopilot 使用里程已经超过90亿英里（约145亿公里），只需要用充足的行驶数据训练智驾模型，便能实现更好的智驾体验，让自动驾驶“学会”开车。

其次是算力。

早在2022年，特斯拉算力中心的算力已经达到了2 EFlops；到了去年，特斯拉自研的Dojo超算中心也开始量产，预计至2024年底投入10亿美元，届时Dojo的算力将达到惊人的100 EFlops。作为参考，华为车BU算力中心的算力为2.8 EFlops。

即便如此，特斯拉仍然要购买大量的英伟达H100来训练其神经网络。据了解，一片H100芯片官方售价3.5万美元，这对财大气粗的主机厂来说都是一笔不小的开销。要想在智能驾驶领域追上特斯拉，技术、销量、算力和资金四个方面缺一不可。

从目前的情况来看，国内还没有车企能满足全部的要求。

特斯拉选择了端到端作为其FSD的技术路线，无疑是一种大胆而前卫的尝试。如果这条路线能如愿走通，将对特斯拉自身乃至整个自动驾驶行业产生深远而广泛的影响。

当然了，端到端的落地的难度仅用文字是无法完全呈现出来的。运行这一套大模型，参考的维度会更多，对相关的技术人员的要求会更高。况且，端到端智能驾驶是个黑盒子，即便出了差错，研究人员也不知道它为什么会出差错，到底是哪一部分出了问题，又该如何去避免。

理论上只能通过不断的训练、调参、增加参数量，来尽可能地提高模型的准确率，但最终能否达到100%的安全，还是要打一个问号。

也正是以上诸多因素，目前也只有特斯拉和comma.ai选择了端到端完全自动驾驶的解决方案。端到端有优势也有挑战，并且挑战依然是极大的，在现阶段甚至是未来很长一段时间内，当我们看到“端到端”时，只要看不到实物落地，就应该理性看待。

“大模型”上车确实有用，但能发挥出几分功力，还得看各家车企的实力了。

大师观察

时至今日，智能驾驶依旧是新能源汽车的核心卖点。在国内，由中国车企推出的NOA成为业界布局的重点，致力于在低算力平台上实现以纯视觉为主的高阶智驾；另一边，由特斯拉引领的算法深度优化，通过端到端模型展现出让AI像人一样的解码能力，让车辆更接近人类真实的自动驾驶。

尽管二者侧重点不同，但对于自动驾驶技术来说，这意味着一次巨大的进步，有可能成为完全自动驾驶的解决方案。至于谁的选择更有成效，可能还要等到FSD真正来到国内之后再一较高下。