英伟达GeForce RTX 2080/2080 Ti评测:光线追踪新标杆
科技
科技 > 滚动 > 正文

英伟达GeForce RTX 2080/2080 Ti评测:光线追踪新标杆

原标题:英伟达GeForce RTX 2080/2080 Ti评测:光线追踪新标杆

距离帕斯卡架构发布已经两年有余,一个架构历经两代TITAN,横跨移动和桌面平台乃至超算,英伟达的GP100系列无疑赚得盆满钵满。同时超长的帕斯卡架构生命线也给众人留下一个疑问,下一代消费级旗舰显卡什么时候才能到来?

这个答案留给了Turing图灵。SIGGRAPH 2018大会发布Quadro RTX 8000、RTX 6000、RTX 5000专业显卡一周之后,这篇文章的主角GeForce RTX 2080、GeForce RTX 2080 Ti正式发布。时隔两年,英伟达再次让消费级显卡跨入全新门槛,光线追踪、DLSS深度学习超采样全面入驻。

之前我们已经浅析了Turing图灵架构,现在,是时候揭开GeForce RTX 2080与GeForce RTX 2080 Ti性能面纱了。

TU102与TU104参上

GeForce RTX 2080与GeForce RTX 2080 Ti芯片代号分别是TU104和TU102,下个月即将发布的GeForce RTX 2070则是TU106。从帕斯卡架构开始,整数核心编号不再出现在消费级显卡上。这也使得TU102已经成为目前消费级显卡阵营中,最顶级的GPU。同时也意味着英伟达GeForce RTX系列中高端显卡布局基本成型。

从针对专业计算的Volta伏特开始,Volta伏特与Turing图灵都采用了台积电12纳米线宽制程,其中英伟达专门针对制程花费了大价钱进行定制,这才有了12纳米FFN制程的说法,而FFN代表着FinFET NVIDIA的意思。当然,这个制程仍然属于16纳米工艺节点。

在测试实际性能之前,很有必要说一下芯片面积。下图是GeForce RTX 2080 Ti的TU102与GeForce GTX 1080 Ti的GP102的等比例对比。TU102的芯片面积达到了754mm^2,仅比全画幅相机的传感器尺寸略小一些,晶体管数量达到186亿个。同时GeForce RTX 2080的芯片面积为545mm^2,晶体管数量为136亿个。

因此GeForce RTX 2080与GeForce RTX 2080 Ti随着成本上升而售价上扬变得情有可原。

可能由于GDDR6更省电的缘故,英伟达官方给出的GeForce RTX 2080 Ti的全卡功耗与GeForce GTX 1080 Ti相当,均为250W,同时GeForce RTX 2080 Ti Founders Edition供电接口为8+8pin。

GeForce RTX 2080全卡功耗则相对GeForce GTX 1080的180W略微升高,功耗是达到225W,GeForce RTX 2080 Founders Edition电源接口为6+8pin。

也就是说,从上一代GTX 10系升级到RTX 20系,无需更换供电,特别是模组化电源毫无压力。

事实上图灵架构与以往架构拉卡差距的地方在于拥有独立的独立的Tensor Core张量内核以及RT Core光线追踪内核。按照英伟达的说法,如果TU102与GP102之间只做纯光线追踪运算,两者之间的差距高达10倍。

这使得原本的运算性能指标已经不能正确表达出GeForce RTX 2080与GeForce RTX 2080 Ti两块显卡的性能。因此英伟达按照新的混合渲染模型重新定义了计算方式。其中包括20% Tensor Core(FP16),80% CUDA Core(FP32),40% RT Core(RTOPS)和28% INT32相加,最终获得RTX-OPS性能公式,具体公式如下:

RTX-OPS = TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28%

套用上GeForce RTX 2080 Ti,就有了黄仁勋在发布会PPT上描述的78 RTX-OPS,GeForce RTX 2080则为60 RTX-OPS。同时这也将成为以后新显卡性能的表达方式。

RTX-OPS = 114 * 20% + 14 * 80% + 100 * 40% + 14 * 28% = 78 RTX-OPS

顺带一提,按照英伟达的说法,如果只做纯光线追踪,GeForce GTX 1080 Ti理论性能应该为1.1GRPS,GeForce RTX 2080 Ti理论性能为10.6GRPS。同时GeForce GTX 1080 Ti的理论单精度性能为10.6TFLOPS,那么GeForce RTX 2080 Ti换算回去,理论单精度性能应该为110TFLOPS左右。性能差距感受一下。

跑分见真章

架构改变对于现实性能表现而言并非完全相等。特别是支持光线追踪技术的游戏还没有这么快上市,因此在这个环节中依然以无法发挥RT Core的传统方式进行。除了GeForce RTX 2080 Ti Founders Edition和GeForce RTX 2080 Founders Edition两块显卡之外,我们还找来了GeForce GTX 1080 Ti Founders Edition以及GeForce GTX 1080 Founders Edition作为陪跑。

以及一套不会拖后腿的测试平台:

如果从单精度浮点性能来看,GeForce RTX 2080 Ti仅比GeForce GTX 1080 Ti提升10%。但是全副武装的GeForce RTX 2080 Ti和GeForce RTX 2080胜在局部性能更占优势,例如GDDR6显存。

因此我们可以看到,GeForce RTX 2080 Ti光是纹理单元就达到了272个,GeForce RTX 2080为184个,GeForce GTX 1080 Ti为224个,GeForce GTX 1080则为160个。同样,四块显卡的纹理填充率分别为420.2 Tex/s、233.3 Tex/s、354.4 Tex/s、277.3 Tex/s。内存带宽分别是616 GiB/s、448 GiB/s、484 GiB/s、320 GiB/s,内存容量分别是11 GiB GDDR6、8 GiB GDDR6、11 GiB GDDR5X、8 GiB GDDR5X。

细心的你已经发现,GeForce RTX 2080与GeForce GTX 1080 Ti在参数堆叠上有来有回,相差不是太多。黄氏刀法真正恐怖的地方就在这里,在分数测试中,我们分别使用3DMark Fire Strike Extreme、3DMark Fire Strike Ultra、3DMark Time Spy Extreme、3DMark Time Spy、VRMark Blue Room、VRMark Cyan Room逐一测试。四款显卡分数对比如下:

GeForce RTX 2080 Ti的传统测试环境中性能相对GeForce GTX 1080 Ti大概有30%到40%的提升,一路领先。但是GeForce RTX 2080相对GeForce GTX 1080 Ti就没有这么明显了,甚至吃了显存容量低于GeForce GTX 1080 Ti的亏,在3DMark Fire Strike Ultra输给了GeForce GTX 1080 Ti Founders Edition。

如果只以传统测试数据作为依据,GeForce RTX 2080表现更像是高性能非公版的GeForce GTX 1080 Ti。有意思的是,GeForce RTX 2080的6499元官方定价也与GeForce GTX 1080 Ti的官方定价相当,同样的价钱买同样的性能,这么理解也未尝不可。

游戏测试环节也与3DMark、VRMark测试表现相当,由于第一个版本的《古墓丽影:暗影》没有加入光线追踪技术,我们依然将其划分到传统测试的类别内。所有游戏无一例外,全部使用4K分辨率游戏设置最高画质(而非自定义画质)进行对比。

如果过说2年前英伟达游戏显卡是以流畅运行4K分辨率游戏为主打,那么这一次GeForce RTX系列可以直接将门槛提升到4K最高画质完全流畅运行的品质上。除了《地铁:最后的曙光》最高画质依然严刑拷打所有显卡之外,包括最新的《古墓丽影:暗影》在内的所有游戏在4K分辨率最高画质下运行都毫无压力。

即使GeForce RTX 2080在3DMark Fire Strike Ultra的跑分上吃亏,实际游戏表现也仍然比GeForce GTX 1080 Ti高出几帧。

绝招:真正的追光者

如果只用传统测试成绩看待GeForce RTX 2080与GeForce RTX 2080 Ti未免过于片面。图灵架构相对于Volta伏特的Tensor Core张量内核基础上融入了RT Core光线追踪内核。

今年早些时候,为了实现游戏实时光线追踪渲染,微软在今年游戏开发者峰会上宣布在DirectX12中加入DirectX Raytracing(DXR)技术,方便开发人员能够更容易调用光线追踪,离线渲染转向实时渲染变成了可能。

但DXR实现并非易事,帕斯卡GPU只能通过完全软件的方式进行,Volta则可以通过Tensor Core张量内核来实现光线追踪去噪。唯有Turing图灵具备DXR的硬件加速要求。也就是说,GeForce RTX 2080 Ti与GeForce RTX 2080在硬件结构上与之前的显卡存在物理结构上的区别,RT Core与Tensor Core都会成为新显卡的门槛。

通过软件调用CUDA、Tensor间接手段实现光线追踪效率可想而知,RT Core在消费级显卡中目前仅GeForce RTX 2080与GeForce RTX 2080 Ti独占,即使算上专业显卡,也仅有Quadro RTX系列。

目前宣布即将支持光线追踪技术的游戏包括:

《神力科萨AC》(Assetto Corsa Competizione)
《原子心脏》(Atomic Heart)
《战地5》(Battlefield Ⅴ)
《控制》(Control)
《从军》(Enlisted)
《逆水寒》
《剑网3》
《机甲战士5:雇佣兵》(MechWarrior 5:Mercenaries)
《地铁:一路向东》(Metro Exodus)
《ProjectDH》
《古墓丽影:暗影》(Shadow of the Tomb Raider)
《生化危机2:重制版》(Resident Evil 2)

无一例外,上述游戏均会在显卡正式上市后一段时间才会逐步加入光线追踪支持。即便如此,我们仍然能够通过英伟达的星球大战RTX DEMO一探究竟。

事实上这套电影质感的短篇《星球大战Reflections》在数个月前的运行在一套价值7万美元,大约45万元人民币的DGX Station工作站上,里面配备了四块Volta架构的Tesla V100显卡。现在英伟达光靠GeForce RTX 2080 Ti与GeForce RTX 2080的RT Core来实现相似的效果。

这套《星球大战Reflections》DEMO包括了2K分辨率和4K分辨率两个版本,仍然使用GeForce GTX 1080 Ti Founders Edition以及GeForce GTX 1080 Founders Edition作为陪跑。

仅仅依靠CUDA Core的GTX 10系列帧数根本无法观看,相反,GeForce RTX 2080 Ti与GeForce RTX 2080则能流畅运行处理。其中GeForce GTX 1080 Founders Edition的8GB GDDR5X内存无法达到DEMO门槛,帧数只能计为0。

如果说RT Core是显卡通向新世界的门槛。诞生于Volta的Tensor Core则是另一个。

在GeForce RTX中,Tensor Core被负责用于神经图形加速。事实上,它本身是一个被英伟达经过与训练的内核。在图灵架构中,Tensor Core引入了INT8和INT4进行深度推理加速,最终引出了与我们游戏息息相关的技术:深度学习超采样DLSS。

用形象的例子来说,深度学习超采样DLSS就像是一群训练有素、认真听话的三好学生,他们未必知道游戏世界的画面长啥样,所有训练均来自云端的深度学习,并伴随着每次驱动升级而更新。因此它们可以通过一副干扰的图像,自动补充回完整的画面。

这是什么概念?你可以随便打开一个3A大作,4K分辨率下,将超采样开到MSAA X16级别。锐利画面与低帧数并行不可避免。

通过以下相同画面的TAA与DLSS对比,可以看出DLSS 4K分辨率画面已经足够与TAA X2抗锯齿水平媲美,至少直观感受下不会有太大差距,反倒在细节上DLSS会更为圆滑。

此为TAA

此为DLSS

但这只是一帧。Tensor Core的高效率释放了GPU的性能,在同一张显卡下,DLSS模式能比TAA获得最高30%左右的提升。而GeForce GTX 10系列并没有Tensor Core加持,自然不会有这样的福利。

需要注意的是,DLSS仍然需要游戏支持,目前宣布游戏支持列表已经包括《最终幻想15》、《绝地求生》在内的25款游戏,相比增加光线追踪功能,增加DLSS对于开发商而言更为简单,特别是对PUBG绝地求生这样的游戏而言,能够在相同画质下提升帧数无疑相当拥有吸引力。

HDR与超频齐飞

在新显卡中,英伟达为其加入了HDR BT.2100支持,三个DispalyPort接口支持到1.4a版本,最高支持8K@60Hz,带宽8.1Gbps。第四个接口则变成了兼容USB Type-C和VirtualLink接口,VirtualLink可以在提供HBR3四信道DP的同时支持SuperSpeed USB 3传输反馈信号,同时VirtualLink强制5W供电,可选27W。

在支持VirtualLink的一体化头戴设备出现之前,我们用到最多的自然是三个DispalyPort 1.4a接口。而HDR高刷新率高分辨率显示器也已经正式开卖,下面这台ROG SWIFT PG27UQ 4K HDR 144Hz IPS G-SYNC显示器就是最好的例子。

ROG SWIFT PG27UQ 4K HDR 144Hz IPS G-SYNC

在这款逆天的显示器加持下,我们先将显示设置中的HDR和WCG打开,并且在NVIDIA控制面板中奖NVIDIA颜色设置改成最高(32位)、12bpc、YCbCr444。其中YCbCr444即是YUV 4:4:4,一般会将第一个不压缩的亮度信号设置为4,并最终以4:X:Y表示,后面的X、Y数值都不会大于前者。也就是说,YUV 4:4:4(YCrCb444)只意味着一件事情,这个信号是无损的。

在GTX 10时代,完成HDR、高刷新率输出,需要两块GeForce GTX 1080 Ti组成SLI HB解决,并且当时理想的可选显示设备也凤毛棱角,再加上当年诸如索尼旗舰A1 HDR电视的搬运困难,玩上真正HDR画质游戏的玩家基本上只有不缺钱、爱折腾的顶级玩家。

当然,售价2万元的ROG SWIFT PG27UQ 4K HDR 144Hz IPS G-SYNC显示器同样也不便宜,但至少这是一款针对台式机设计,用来完全发挥GeForce RTX 2080 Ti性能刚好合适。

与此同时,新推出的大作中都已经加入了HDR支持。举个最明显的例子,在《古墓丽影:暗影》中原本灰朦的暗部变得更为拥有层次感,至少,我们在开始页面中终于看清楚了劳拉姐姐在做什么。

HDR开启,相机屏摄,全手动参数,画面不做修改

HDR关闭,相机屏摄,全手动参数,画面不做修改

当然,我们也曾经担心过HDR输出会影响游戏的实际帧数,但从目前的测试来看,帧数确实会有1到2帧的降低,并不会影响到游戏的实际运行效果。

另外一个让人心动的话题就是超频。TechPowerUP传言在识别GeForce RTX 2080 Ti的时候发现了两个不同版本的设备ID,包括一套TU102-400和一套TU102-400A,其中只有TU102-400A,超频体制良好的GPU会被用上定价更高的显卡上。

传言暂且放在一边,英伟达倒是为GeForce RTX系列引入了GPU Boost 4.0以及NVIDIA Scanner技术。其中Boost 4.0其实是在Boost 3.0的基础上加入了一套安全范围内的调节空间,提供超频玩家进一步在安全范围内调节频率与功率曲线,而英伟达也会提供相应的API,通过各种版本非公版调试软件获得超频功能。

但不是所有玩家都有时间超频或者熟悉超频,NVIDIA Scanner自动超频API便应运而生。具体而言,就是你给软件设定一个目标值,剩下的功耗墙、频率、电压、风扇转速均由显卡自行调节,整个自检和自动测试的过程大概需要20分钟时间。

当然,不要指望自动超频能够给显卡带来多大的性能提升,反倒是NVIDIA Scanner所提供的功能给不会超频的玩家获得了不小的新鲜感和好奇。至于是否真的从此走上超频不归路,还是要看玩家自己。

同时得益于这一代Founders Edition双风扇设计,以及厚实的金属背板和外壳,都给散热和超频提供了良好的基础。老规矩,我们在最大负载下分别运行四款显卡,GPU温度和红外线图片都显示了GeForce RTX Founders Edition在散热上的良好表现。

写在最后:嫌贵,是我们的错

比起性能追求,GeForce RTX 2080与GeForce RTX 2080 Ti更像是在设置一道游戏的新门槛。在未来,3A游戏如果没有RT Core加速光线追踪,画质只能低人一等。如果没有Tensor Core支持DLSS深度学习超采样,那么只能忍受在同画质下的低帧率。

事实上,英伟达为了推动RTX,在去年年底宣布放弃了自家的MetalRay,颇有一股壮士断腕的决心。感觉RTX对英伟达而言,非常重要。

我们不能否认GeForce RTX 2080性能其实与非公版超频的GeForce GTX 1080 Ti相当,但是前者手握RT Core和Tensor Core才是真正杀招。在没有对手的情况下,英伟达以同样的价格维持了同样的性能,并同时加入更高阶的技术提高游戏门槛,推动游戏视觉的发展。

如果你在GeForce RTX 2080和GeForce 1080 Ti之间犹豫,我们会建议你直接入手GeForce RTX 2080,毕竟光线追踪才是未来的趋势。

定价9999元的GeForce RTX 2080 Ti当然是旗舰玩家唯一的选择。它如同iPhone Xs Max 512GB,不管怎么抱怨和吐槽价格,它都将是现在旗舰唯一的选择。是的,检验N饭钱包厚度的时刻这次真的来了。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载