英伟达发布4090超级核弹！TSMC 4N，顶配12999元起，性能涨4倍（racer x）

编辑：编辑部

【新智元导读】英伟达40系显卡终于来了，看完发布会的发烧友们，纷纷表示自己30系还能再战三年。

在全球DIY玩家们喜迎矿难、30系显卡价崩之际，在「你，我，200，飞」成真的大喜氛围中，英伟达矿业集团（bushi）一年一度的盛会GTC 2022如期而至！

昨天晚上，老黄穿着那件万年不变的皮衣，发布了玩家们期盼已久的40系显卡：

24GB显存的RTX 4090，以及16GB和12GB显存的RTX 4080，代号「Ada」。

不用说，发烧友们最先关心的就是卖多少钱了，果不其然涨价了！

显卡	价格	上市时间
RTX 4090	12999元起	10月12日
RTX 4080 16GB	9499元起	11月
RTX 4080 12GB	7199元起	11月

这里多提一句30系两款同级显卡的首发价，相信各位「等等党」们早就烂熟于胸：

RTX 3090：11999元，RTX 3080：5499元。

随着不久前以太坊的合并，现在显卡挖矿没收益了，希望这一代不要再变「空气卡」、「耍猴卡」了。

新架构Ada，40系同级性能翻2-4倍

自从上一代30系显卡，英伟达取消了Titan开始，如果不算面向高性能计算加速的专用卡，X090就成了英伟达显卡的旗舰型号。

此次老黄在介绍时，对这两款显卡参数也确实没说太细，只是在官方新闻稿里提到了一些基本参数：

RTX 4090：760亿个晶体管、16384个CUDA核心和24 GB GDDR6X显存，最大boost频率2.52GHz。

RTX 4080 16GB：9728个CUDA核心，基础频率2.21GHz，最大boost频率2.51GHz。

RTX 4080 12GB：7680个CUDA核心，基础频率2.31GHz，最大Boost频率2.61GHz。

其中，在相同的功率下，Ada架构的性能是Ampere的两倍以上。

据说还能超频，还是老黄自己说的。他们在实验室里超到过3GHz，当然室温、散热、体质这些统统没提。

另外英伟达表示，此次换代，与30系相比，40系同等级显卡的功耗并未提升。官方对RTX 4080的电源建议仅为12GB版700W，16GB版本750W，RTX 4090也才850W，看起来3080、90升级可以不用换电源了。

因为刚发布，具体性能跑分和游戏实测目前还没有，不过老黄说，新旗舰4090即使是在优化最渣的《微软模拟飞行》中，性能也达到了30系旗舰3090ti的2倍，《战锤40k：黑潮》也是如此。

至于3A大作《赛博朋克2077》，则达到了恐怖的4倍性能提升。

另外，16GB的RTX 4080显卡在现代游戏中的性能比RTX 3080Ti快2（关闭光追）-4（开启光追）倍。

英伟达官方称，12GB版本比上一代旗舰GPU——RTX 3090 Ti性能更强大。

在4080和3080ti的对比上同样如此，三款游戏均至少实现了接近2倍的性能提升。

而40系显卡的发布，也意味着2K360帧时代的到来。

黄氏不等式2022版：4090≈2*3090TI，4080≈2*3080TI......

目前，华硕、七彩虹、耕升、影驰、技嘉、映众、微星和索泰等顶级显卡供应商将在中国推出GeForce RTX 4090和4080 GPU标频版和超频版。

此外，英伟达也将限量推出RTX 4090和RTX 4080（16GB）FE版，以满足渴望获得FE版设计的粉丝需求。

其实早在发布之前，40系显卡的相关消息就已经满天飞了。可以说除了售价未知之外，大伙儿早就被各种leak的消息喂得饱饱的了。

比如这一代新架构的名字Ada，是为纪念人类史上首位程序员Ada Lovelace伯爵夫人，这也承袭了英伟达这代计算设备代号的命名风格——以计算机发展史上的名人命名。

从帕斯卡、图灵、安培，到这一代的艾达，希望我们在享受性能越来越强的显卡时，也不忘这些为人类文明进步做出卓越贡献的科学巨人们。

你的腰包，还好吗？

4倍性能提升，DLSS 3.0开启渲染新时代

本次GTC介绍显卡没少提「游戏性能提升」，那么对于游戏玩家来说，到底是什么提升？

其实大概就是两种。

一种是，在维持获取流畅游戏体验的帧数条件下，尽量提升画质。

另一种是，在游戏画质没有感知下降的情况下，尽量提升帧数。

对于英伟达来说，前者，有光追。后者，有DLSS。

老黄表示，本次40系显卡光追综合性能提升了2倍，同时搭载了全新版本DLSS 3。

官方称，DLSS 3是一款由 AI 驱动的性能倍增器，将开启NVIDIA RTX神经网络渲染游戏和应用的新时代。

DLSS 3包含四个组件：光流加速器、游戏引擎运动矢量、卷积自动编码、AI桢生成器。

最重要的是，DLSS 3.0拥有开创性光学多帧生成功能。

光学多帧生成技术，可生成全新帧，而不仅是像素，从而带来惊人的性能提升。

基于英伟达第三代Ada Lovelace架构的新光流加速器可分析两帧连续的游戏图像，并计算帧到帧中物体和元素的运动矢量数据，而不使用传统游戏引擎的运动矢量进行建模。

这极大地减少了AI在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。

为了让大家看到Ada Lovelace RTX架构的性能，英伟达进行了Racer X模拟越野赛车游戏的展示。

可别说，演示中你就能看到这个光追怪物的厉害了。

通过综合游戏中的一对超级分辨率帧，以及引擎和光流运动矢量，并将其输入至卷积神经网络，就能计算生成出新的一帧，这在实时游戏渲染中是首次实现。

另外，将DLSS生成的全新帧与DLSS超级分辨率帧相结合，使DLSS 3能用AI重建八分之七的显示像素，与没有DLSS相比，帧数提升了4倍。

DLSS 3集成也包括NVIDIA Reflex，可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

未来，像Unity Engine和虚幻引擎等全球热门的游戏引擎都将支持DLSS 3技术。

同时，DLSS 3也将应用到35款游戏。

目前包括《黑神话：悟空》、《永劫无间》、《逆水寒》、《赛博朋克2077》、《巫师3》、《原子之心》等。

自动驾驶「超级核弹」：1颗顶原来8颗

然而，在全新的自动驾驶旗舰级芯片DRIVE Thor面前，40系显卡的这点提升，就有些不够看了。

搭载了770亿晶体管的「雷神」Thor，在算力上达到了2000 TOPS和2000 TFLOPs。

这波操作，老黄实在是太不讲武德了。

说好的2024年推出1000T的Atlan，结果直接给砍了，换成性能再翻一倍的Thor。

（不过严格来说，INT8和FP8的算力还是有些区别的）

从30T的Xavier，到256T的OrinX，老黄打遍天下主机厂，只用了不到5年的时间。

用微博知名博主「Blood旌旗」的话说就是：「今天的高端智能电动汽车，除了特斯拉，谁敢不用OrinX做ADAS核心？」

曾经的ADAS芯片霸主，比如某Mobileye，只能眼睁睁地看着自己被「暴力美学」的车轮碾压而过。

而Drive Thor也将是英伟达第一个具有Transformer引擎的自动驾驶汽车计算平台。理论上，这可以将深度神经网络的推理性能提高9倍。

现在的自动驾驶汽车，多则搭载30多个传感器，10个或更多的摄像头、多个雷达、激光雷达和超声波传感器，Thor的AI能力对于软件感知系统的工作至关重要。

通过多域计算，Thor不仅能单独负责自动驾驶系统的计算需求，而且还能利用虚拟机，同时运行汽车底层的Linux，辅助驾驶的QNX，智能座舱的安卓等多个操作系统。

可以说是，向「真·中央域控制器」迈进了一大步。

此外，Thor还集成了最初为数据中心应用开发的NVLINK连接，以加快芯片之间的数据传输。

不过除此之外，英伟达并没有提供进一步技术细节。

最后，吉利旗下的ZEEKR将成为搭载Thor的第一个客户，并将于2025年开始生产。

Omniverse：应用更多，功能更强大

这次，有了Ada Lovelace GPU的支持，Omniverse不仅能够加速各种复杂的3D工作流，还能够将光线追踪、AI和计算等复杂技术集成到3D流水线中。

在VR中，也能实现追踪光线的功能。

还能在Omniverse中创建数字孪生数据库。

这些数字孪生均会与真实数据输入持续保持同步，并由Omniverse计算平台提供AI上的支撑。

得益于Pixar的USD（Universal Scene Description），在云的支持下，Omniverse 可为当前现有的 3D工作流提供无缝协作体验。

深度学习项目开源

除了显卡，老黄还公布了英伟达最新开源项目——CV-CUDA。

CV-CUDA由50多种CV算法组成，并支持整合定制内核、零拷贝接口和其他现代功能。旨在处理图像的前期和后期处理，以加速计算机视觉工作负载。

英伟达称，CV-CUDA可以在单个GPU上处理10倍数量的数据流，CV-CUDA可以与C/C 和Python应用程序对接，也可以集成到现有的深度学习框架和其他软件中。

目前，英伟达公布将从12月开始以早期访问形式发布CV-CUDA，同时计划在明年3月推出测试版。

除此之外，为了简化对对大型语言模型（LLM）的访问，英伟达还宣布提供的两项服务:

一是，用于定制和使用LLM的NeMo LLM，另一个是用于扩大LLM在制药和生物技术行业的科学应用的 BioNeMo。

目前，NVIDIA NeMo LLM服务提供了定制基础LLM，并利用英伟达管理的云AP 或通过私有和公共云进行大规模部署。

就比如，有5300亿参数的威震天模型将很快通过 NVIDIA NeMo LLM 服务的早期访问程序提供给开发人员。

另外，BioNeMo将为化学和蛋白质组学支持最先进的基于转换器的模型，未来对DNA工作流支持也即将开放。

参考资料：

https://www.nvidia.cn/gtc-global/keynote/

https://weibo.com/2323195050/M6GAFk8jY

查看全文