7199元起,英伟达RTX40系显卡来了:根底性能翻倍,光逃翻4倍

admin|
232

机器之心报导

编纂:泽南、杜伟

更高端的 RTX4090 性价比更高,你没想到吧?

固然因为产物太贵而被吐槽,但提起最强 AI 芯片、高端游戏 GPU,人们仍是起首要看英伟达。9 月 20 日晚,GTC 大会在线上召开,万寡等待的 RTX 40 系列显卡末于正式发布了。

与以往稍有差别,那场重要的 Keynote 显得华而不实并且「简短」,黄仁勋间接站在空阔的元宇宙里开讲:

一个半小时收工。

在那场活动中,英伟达展现了 RTX、AI 芯片和元宇宙产物线 Omniverse 的最新停顿,还包罗它们对人工智能范畴新打破的帮忙,以及大量应用落地。

在一切起头之前,老黄先展现了一个全可交互的模仿情况 RacerX,它用 Omniverse 构建,物理材量特征、光线逃踪、烟雾火焰一个很多。最重要的是「全数没有预衬着过,是跑在单块 GPU 上的」:

黄仁勋说,全数实时处置,那才是将来游戏的该有的样子。

能跑得起 RacerX 的必定是最新 RTX 40 系显卡,AMD 也要发布新一代 GPU 了,英伟达此次会连结领先吗?若是 N 卡性能更强,代价是什么?

RTX 40 系列 GPU:性能翻倍,光逃才能翻倍

那就是英伟达的第三代 RTX 显卡,接纳全新的 Ada Lovelace 架构。

英伟达转投台积电后,利用定造版 4N 造程加成的 RTX40 系 GPU 被塞进了760 亿个晶体管,比上一代 Ampere 多了 70%。

25 年前,英伟达推出了可编程着色的 GPU,彻底改动了计算机 3D 图形的世界。到 2018 年,英伟达推出 RTX 架构,新增的 RT Core 用于加速实光阴线逃踪,Tensor Core 用于处置矩阵运算,又实现了史无前例的效果。在刚刚推出的 Ada Lovelace 架构中,三种处置器均有改良和提拔,此中:

1、SM 流处置器新增着色重视排序施行才能(Shader Execution Recording),能够实时从头调度使命,把光逃速度提拔 2-3 倍,在 4090 上能输出 90TFLOPS,性能较上代提拔两倍。

2、第三代 RT Core 实现了两倍的光线与三角形求交性能,全新的 Opacity Micromap 引擎能够把 Alpha-test 几何性能提拔 2 倍,Micro-Mesh 引擎可提拔几何图形的丰硕度,而不会带来 BVH 构建和存储资本的更多消耗。

3、新的第四代 Tensor Core 能够实现1.4 petaFLOPs 算力,AI 性能翻倍。

「Shader Execution Recording 和昔时的 CPU 乱序施行一样,是一项严重立异,」黄仁勋说道。「光线逃踪很难并行处置,而 GPU 具有高度并行性,SER 通过立即从头摆设着色器负载来提拔效率,能够提拔 2 到 3 倍光逃性能,游戏性能提拔 25%。

但我们晓得,光线逃踪曾经被英伟达前首席科学家 David Krik 说成是「永久不会到来」的手艺,性能翻倍也不克不及让 GPU 包管在现在的各类大型单机游戏中连结高帧率,那个时候就需要 AI 算法了。

DLSS 利用卷积主动编码器 AI 模子,能够在 GPU 输出的低分辩率画面根底上主动脑补出高分辩率,大幅降低性能需求。英伟达在 Ada 架构中引入了 DLSS 3,其能够在分辩率提拔的同时主动补帧。DLSS 3 包罗四个组件:新的光流加速器、游戏引擎运动矢量、卷积主动编码 AI 帧生成器和 Reflex 低延迟流水线。

DLSS 3 同时处置当前帧和上一帧,光流加速器为神经收集供给运动标的目的和速度信息,连系图形和像素的运动矢量,输入神经收集就能够生成中间帧了。

「DLSS 3 在不涉及图形管线处置的前提下生成全新帧,相较于单纯的衬着能够将性能提拔多至 4 倍,」黄仁勋暗示。「并且不管 CPU 仍是 GPU 有瓶颈的游戏都能够从中受益。

英伟达展现了开 DLSS 3 的赛博朋克 2077、微软模仿飞翔等游戏的运行效果:

4 年来,RTX 的数据量提拔了 16 倍,如今的一些像素是计算得出,大大都是 AI 揣测出来的。

在演示中,几个游戏都是帧数间接乘以二。但值得留意的是,DLSS 3 和新硬件特征高度绑定,30 和 20 系的用户无法享受如许的性能。

英伟达公布了 40 系显卡的多项常规硬件规格:RTX 4090 接纳 AD102 GPU,拥有 16384 个 CUDA 核心和 24GB GDDR6X 显存,默认 TDP 为 450W;RTX 4080 16GB 版拥有 9728 个 CUDA 核心,TDP 为 320W;RTX 4080 12G 版拥有 7680 个 CUDA 核心,TDP 为 285W。从功耗上看,从三星 8nm 换到台积电 4N 工艺效率提拔显著,同级性能提拔了,电源要求没有提拔。

性能比拟上代提拔了几?通过 SER 优化、更大规模芯片,再加上芯片加速频次从 1.7GHz 提拔到 2.52GHz,综合起来能够让 RTX 4090 比拟 3090Ti 性能翻一倍;若是看光线逃踪,性能则提拔了 4 倍。黄仁勋暗示,Ada 的同功耗性能是 Ampere 的两倍。

再往下,RTX 4080 可在开 DLSS 时到达 3080Ti 的两倍性能。

最初是价格:RTX 4090 公版售价 1599 美圆,10 月 12 日起头售卖;RTX 4080 16GB 售价 1199 美圆,12GB 版售价 899 美圆。

总结一下就是 90 的价格几乎没涨,80 的价格涨了 500 美圆。关于国内用户来说,RTX 40 系的售价是那个样子:4090 12999 元起,4080(16GB)9499 元,4080(12GB)7199 元。

看起来非公版的 RTX 4090 价格将在 15000 摆布。

不外,那一代显卡有个需要留意的处所:看起来 12G 版的 4080 似乎是把原定的 70Ti 改了名字。

英伟达 Omniverse 毗连了 3D 世界

除了 GPU 和 AI,英伟达也是元宇宙的引领者,黄仁勋介绍了 Omniverse 的一系列前进。

Omniverse 是英伟达构建和运行元宇宙应用的平台,在数字和现实世界交汇之处产生感化。Omniverse 仍是一个实时的大型 3D 数据库,构建一个可共享的 3D 世界。Omniverse 更是一个计算平台,你能够编写在其上运行的应用,那些应用成为进入虚拟世界的门户。

今日,黄仁勋发布了关于其 Omniverse 平台的一系列严重更新,它撑持了 Ada Lovelace GPU,在光线逃踪和大型场景性能方面实现庞大飞跃。

起首是基于 GAN 和扩散模子的新型神经衬着东西。OmniGraph 是一个图形衬着引擎,通过法式化的体例控造行为、动做和动作。

其次是 Omniverse Physics 的严重更新,它能够用来处置复杂的多毗连部件对象的运动情况。

然后是全新的 Cloud XR,撑持在 VR 中实现 Ada 的强大光线逃踪功用。还有首个用于数据生成和数字孪生模仿的 SimReady 素材库。

Replicator 是备受喜爱的 Omniverse 应用之一,用来生成合成数据,从而训练主动驾驶汽车、机器人和各类计算机视觉模子。最初是新的 Omniverse JT 毗连器,它是一款大型应用,使得工业和造造业能够运用 Omniverse。

能够那么说,Omniverse 是一个企业平台,适用于从产物设想和外型到工程筹谋、造造、营销和运营的整个产物生命周期。正如互联网毗连了各个网站,Omniverse 毗连了 3D 世界。

黄仁勋在会上了展现了一些公司操纵 Omniverse 为工场、物流仓库、主动化消费线和工业厂房创建数字孪生的情况。我们能够从以下一些场景案例中探知一二。

Omniverse 计算平台由三部门构成:RTX 计算机,供创做者、设想师和工程师利用;OVX 办事器,用来托管与 Nucleus 数据库的毗连并运行虚拟世界模仿;NVIDIA GDN,进入 Omniverse 的门户。

通过 GeForce Now,英伟达构建了一个全球图形交付收集(即 GDN)。该收集笼盖了 100 个地域,供给响应灵敏的超快 RTX 图形内容交付收集(即 CDN),高效串联互联网视频。而 NVIDIA GDN 可以高效串联交互式图形,并连系 NVIDIA RTX PC、云端的 NVIDIA GPU 打造笼盖全球的 Omniverse 计算平台。

NVIDIA Omniverse Cloud 则是一套软件和根底设备及办事套件,用于随时随地在任何设备上设想、发布和体验元宇宙应用。黄仁勋在会上展现了超等跑车和高级电动车处理计划的先行者 Rimac 公司,以及它是若何操纵 Omniverse Cloud 为 3D 团队实现协做工做流,并为用户供给先辈的 3D 体验。

黄仁勋暗示,NVIDIA Omniverse Cloud 是一款 IaaS 产物,能够毗连在云上、当地和单个设备上,运行 Omniverse 应用。Replicator 和 Farm 也能够在云上运行,此中 Farm 是衬着农场的扩展引擎。目前,用户能够在 AWS 上利用 Replicator 和 Farm 容器。

新一代主动驾驶芯片 Drive Thor

在主动驾驶范畴,车企都需求更强的算力,而英伟达产物的每代性能都要翻倍。

当前,智能机器开发掀起了一波 AI 海潮,深度进修的参与更为系统才能的提拔翻开了新的大门。从软件的开发体例到运行体例,一切都变得判然不同。因而,打造新一代处置器势在必行。英伟达 Xavier 是世界上第一款专为深度进修设想的主动驾驶超等芯片,之后每两年便在处置器性能上完成一次庞大飞跃。

同时,为了拓展主动驾驶范畴,提拔驾驶的平安性,传感器在数量和分辩率上面对同步增长。同时引入更复杂的 AI 模子,所有那些因素都差遣英伟达不竭提拔性能。

2021 年,英伟达推出了 1000 TOPS 的 SoC——Atlan。今天,黄仁勋暗示它的位置已被 Thor 代替。Thor 的吞吐量是 Atlan 的两倍,交付性能也是 Atlan 的两倍以上。实现那些目的离不开三个因素:Grace、Hopper 和 Ada Lovelace,此中 Grace 供给了令人惊讶的 Transformer 引擎、ViT 的快速变化,Ada 中的多实例 GPU 有助于车载计算资本的集中化,将成本降低数百美圆。

Nvidia Drive Thor 接纳良多新手艺,它能够被设置装备摆设为多种形式,将其 2000 TOPS 和 2000 TFLOPs 全数用于主动驾驶工做流。同时能够将其设置装备摆设为一部门用于驾驶舱 AI 和信息娱乐,一部门用于辅助驾驶。Thor 中的多计算域隔离允许并发、对时间敏感的多历程无中断运行。你能够在一台计算机上同时运行 Linux、QNX 和 Android。

此外,Thor 还集中了浩瀚计算资本,降低成本与功耗的同时实现功用飞跃。目前,汽车的泊车、主动平安、驾驶员监控、摄像头镜像、集群和信息娱乐均由差别的计算设备控造。而将来,那些功用将不再由零丁的计算设备控造,而是由在 Thor 上运行、并随时间推移不竭改良的软件同一控造。

Thor 芯片估计 2025 年上车利用。

NVIDIA Drive 是一个面向主动驾驶汽车开发与摆设的端到端平台,在开发方面包罗了 Replicator 合成数据生成、Drive Sim 和 Drive Map,在摆设方面包罗了全栈驾驶和车内 AI 应用、AI 计算机和 Hyperion 主动驾驶汽车参考架构。

NVIDIA Drive 迎来了一系列功用更新,起首是名为 Neural Reconstruction Engine 的 AI 工做流,已成为了 Drive Sim 的一项次要功用。它能够按照记录的传感器数据构建 3D 场景,在将 3D 场景导入 Drive Sim 之后通过人工创建或 AI 生成的内容对其停止加强。别的,那个从视频到 3D 几何图形的工做流能够在 OVX 系统上运行。

从视频到 3D 工做流的动态展现。

Drive Sim 的另一项重要功用是硬件在环,意味着我们能够在 AI 工场运行整个车载软件栈。它还能够模仿车内情况,将来的汽车不只有简单的仪表板,还有将数字设想与物理设想相连系的环绕显示屏,如许汽车工程师、软件工程师和电子工程师能够在 Drive Sim 中展开协做,同时运行所有的现实计算机与软件栈。

Drive Sim 成为了虚拟设想工做室。

此外,英伟达还在开发 Drive 端到端主动驾驶系统的其他方面获得了超卓停顿,好比 Replicator 合成数据生成、AI 模子改良、Drive Map 主动驾驶车队地图构建、城市和高速公路驾驶及泊车。

Drive Map 的主动驾驶车队地图构建。

全新微型机器人系统级模块

Drive Orin 是英伟达推出的第二代主动驾驶汽车计算芯片,目前看来十分胜利,已经被 40 多家汽车、卡车和无人驾驶出租车利用。Jetson 是英伟达的机器人计算机,拥有 100 万开发者,利用的公司约为 6000 家。

今日的 GTC 大会上,黄仁勋颁布发表推出一款微型机器人系统级模块芯片 Jetson Orin Nano,它的速度较之前的 Jetson Nano 快了 80 倍。Jetson Orin Nano 能够运行 NVIDIA Isaac 机器人仓库,并具有 ROS 2 GPU 加速框架。

黄仁勋还介绍了其边沿 AI 平台 Metropolis,它可解读摄像头、激光雷达和其他物联网传感器的数据,进步仓库、工场、零售商铺和城市的平安性与效率。

从工业到科研,主动驾驶到元宇宙,英伟达的营业早已从 GPU 拓展到了无数范畴,并在良多处所都有引领地位。关于通俗消费者来说,显卡也早已不是玩游戏用的了。

如今,新一代 GPU 已经推出,你会选择降价后的 RTX30,仍是买新不买旧呢?