现实仿真：自动驾驶的隐秘竞技场（汽车堆栈竞技场）

2022 年，在技术、政策法规接连取得突破后，自动驾驶真正开始从小范围的试验场，走向大规模商业化落地。与此同时，挑战随之而来。不同于其他行业，自动驾驶关乎驾乘人员的安全，并且需要实时地处理海量的信息做出最为安全、稳妥的决策，稍有闪失便会产生严重的后果。这意味着，自动驾驶汽车在正式上路之前，需要经过大量的训练与仿真测试，伴随而来的，是车企对于超大算力的需求。

IDC 近期发布的《现实仿真，超大算力赋能自动驾驶》白皮书，探讨了目前自动驾驶的发展情况以及车企在自动驾驶开发过程中的需求和挑战。此外，该报告还介绍了 NVIDIA 在助力蔚来、大陆集团构建 AI 数据中心方面的实践经验。

以下，我们来看具体内容。

助力汽车行业主机厂：蔚来采用 NVIDIA HGX 搭建 AI 平台

蔚来是一家全球化的智能电动汽车公司，致力于通过提供高性能的智能电动汽车与极致的用户体验，为用户创造愉悦的生活方式。

01 技术挑战

蔚来研发自动驾驶汽车所用的数据采集车辆每年会产生百 PB 级别的数据，以及几十亿张图像。其量产车也需要回流海量的道路数据，用于优化算法模型。这意味着蔚来的数据中心需要具备能力回流、筛选、标注海量用于 AI 模型训练的数据。这一过程离不开稳健的技术基础架构，包括覆盖全场景链路的人工智能平台和大规模机器学习系统。

02 方案亮点

蔚来使用 NVIDIA HGX 构建综合全面的数据中心基础设施，并在此基础上开发 AI 驱动的软件定义汽车，包括 ET7、ET5。

蔚来的可扩展 AI 基础设施由 NVIDIA HGX 驱动，共配备 8 个 NVIDIA 数据中心 GPU 和 NVIDIA ConnectX-6 InfiniBand 网卡。这个可扩展的超级计算机集群中包含一组 NVME SSD 服务器，并通过高速 NVIDIA Quantum InfiniBand 网络平台相互连接。

借助 NVIDIA 数据中心 GPU，蔚来以纵向和横向扩展方式搭建并应用 AI 平台。对 NVIDIA Multi-Instance GPU 的合理使用，使得算法工程师在开发过程中的工作效率和集群资源利用率得到巨大提升，让蔚来的模型开发效率提高了 20 倍，帮助蔚来更快地落地自动驾驶产品，向更新更快的架构发展。

此外，蔚来在 NVIDIA NVLink 和 NVIDIA Mellanox InfiniBand 的基础上，构建了支持多卡和多机训练的深度学习训练框架，使用 NVIDIA Mellanox InfiniBand 和基于 NVIDIA Mellanox InfiniBand 的 RDMA 技术，构建了分布式的高性能文件读取加速套件。

对于与 NVIDIA 的合作，蔚来 AI 平台负责人白宇利表示：“量产车面临的复杂场景是蔚来自动驾驶能力的试金石，同时，量产车产生的海量数据也是未来自动驾驶能力的护城河。NVIDIA 的高性能计算解决方案成为了蔚来在自动驾驶这条道路上的加速器。”

赋能汽车行业一级供应商：大陆集团基于 NVIDIA DGX AI 系统建立高算力集群

大陆集团致力于为汽车行业提供最尖端的技术与最可靠的服务，其驾驶辅助平台利用 AI 技术训练车辆自主决策，从而为司机提供协助，并在未来最终实现自动驾驶。

01 技术挑战

随着系统的复杂程度不断提升，传统的软件开发与机器学习模式开始体现出自身的局限性，大陆集团以深度学习与仿真测试作为开发人工智能解决方案的基础。大陆集团用于训练神经网络的数据主要来自测试车队。目前，车队中的车辆每天行驶的总测试里程为 15,000 公里，收集约 100TB 的数据，相当于 50,000 小时长的电影。被记录的数据还需要通过回放用于模拟实车训练。

02 方案亮点

大陆集团与 NVIDIA 基于 NVIDIA DGX AI 系统建立高算力集群，其超级计算机包含超过 50 套 NVIDIA DGX 系统，以 NVIDIA Mellanox InfiniBand 网络连接，用于加速开发自动驾驶解决方案。同时提供接口与云端资源连接。主要应用场景包括深度学习和仿真测试。

新的算力集群将开发周期从几周缩短至几个小时，使自动驾驶得以在中短期商业计划中落实。此外，机器学习时间的缩短加快了新科技进入市场的速度。

“超级计算机是对未来的投资，”大陆公司驾驶辅助系统团队的总项目负责人 Christian Schumacher 说，“最先进的系统可以缩短训练神经网络的时间，与过往相比，借助 NVIDIA 的支持，我们能够在相同的单位时间内增加至少 14 倍的测试量。”

小结

NVIDIA 提供适用于自动驾驶汽车的基础架构，包括开发自动驾驶技术所需的数据中心全套硬件、软件和工作流参考架构，涵盖从原始数据采集到验证的每个环节，为神经网络开发、训练和验证以及仿真测试提供了所需的端到端基础模块。

在蔚来案例中采用的 NIVDIA HGX，是适用于庞大数据集、复杂模型等 AI 场景的加速服务器平台。HGX 整合了 NVIDIA 数据中心 GPU、NVIDIA NVLink、NVIDIA Mellanox InfiniBand 网络及在 NGC（NVIDIA GPU Cloud）中经全面优化的 NVIDIA AI 软件堆栈。同时，它树立了新的计算密度标杆，将 5 PETAFLOPS 的 AI 性能浓缩，并用一个平台取代了各种 AI 工作负载的传统孤岛式基础架构。

而在两个案例中均采用的 NVIDIA DGX POD，其参考架构结合 NVIDIA 加速计算架构、Mellanox 网络架构和系统管理软件，能够为蔚来、大陆集团这样的行业变革引领者，提供高性价比、即买即用、方便部署的解决方案，使超级计算能力变得易于访问、安装、管理，从而满足自动驾驶复杂架构的需求。

此外，可拓展性也是推动 NVIDIA DGX POD 占领市场的另一个亮点。随着人工智能的发展，机器学习的速度日益提升，每一次创新都有可能带来算力需求的指数型增长。超算基础设施的可拓展性是满足这一需求的重要前提。

欲进一步了解车企在构建数据中心的需求和挑战，以及 NVIDIA 的相关建议和经验，请扫描下图二维码，查阅完整版白皮书。