显卡tbp功耗与实际功耗 显卡的vddc功耗和gpu功耗
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
nvidia2080现在大概多少钱 nvidia最新推出的2080ti
nvidia2080s,nvidia2080显卡,nvidia2080ti,英伟达显卡2080作为显卡行业的个中翘楚,NVIDIA在这个行业里摸爬滚打十余载,积累了想打一部分的用户群体。虽说这两年AMD发力在显卡方面有了一定的声音,但是从市场份额和用户粘性来讲的话,NVIDIA仍然可以说是整个显卡市场的领头羊。
但是,今年的NVIDIA却有些“反常”。首先,在今年的显卡发布会上,NVIDIA就推迟了3个月左右的时间,要知道基于Pascal的10系显卡是在2016年5月份发售的,往常的显卡一般都会选择3~6月份发售;第二,也是最不可思议的一点,今年的NVIDIA口风极严,发布会开始前人们讨论最多的话题居然还是“新显卡到底是11系还是20系”、“新显卡架构到底是Volta伏特、【【微信】】安培还是Turing图灵”这种最初级的命名形式。至于性能以及重大变化几乎没有人讨论,因为真的是一点信息都没有,这也是令我们最为头疼的一点。
时至今日,再看NVIDIA的这波操作,我们也不难理解是因为什么:首先,Turing图灵架构相比以往发生了翻天覆地的变化,RT CORE和TENSOR CORE的加入,使得SM单元整体的计算模式发生了改变,RTX光线追踪技术的首次引入和其它一系列的变化,值得此次NVIDIA花费这么大的力气来保密。
Turing图灵架构的四个基本特征
RTX基于微软DX12中的DXR
其实,老黄在发布会上的那句“Turing图灵架构是NVIDIA十年磨一剑的产物”也证明了20系显卡在NVIDIA发展过程中的重要战略意义。那么,时隔12年打磨终出台面的RTX 20系显卡究竟会为我们消费者带来什么样的提升?别着急,接下来,让我来为你们一一解答。
图灵架构的基本组成
既然是全新一代架构,又被NVIDIA如此看重,我们自然要好好聊聊。首先从命名方式上来说,图灵指的是人类计算机科学之父、人工智能之父:艾伦・麦席森・图灵(Alan Mathison Turing),其最有名的莫过于图灵测试,人工智能只有通过这个测试才能真正的被人们赋予“智能”二字。
Turing图灵核心
那么这次的图灵架构相对于以往的Pascal架构可以说发生了翻天覆地的变化,总结的来说就是:更大的核心面积、更细致的制程、Shading着色渲染的升级以及加入了全新的RT CORE、TENSOR CORE。接下来我们展开来讲。
完整TU102架构图
先来说说整体核心。这次的Turing图灵核心目前已知性能最强的为RTX 2080Ti上的TU102核心。采用台积电12nm FFN工艺打造,基于16nm FF+演进而来,其集成189亿个晶体管,核心面积为754平方毫米。这是目前已知第二大的核心了,第一是Volta架构的GV100核心,其拥有210亿个晶体管,核心面积815平方毫米,妥妥的大型核弹。
那么相比1080Ti上面的Pascal帕斯卡GP102核心,TU102晶体管数量增加了55%,面积增大了60%。而对于RTX 2080上的TU104来讲,其晶体管数量也达到了惊人的136亿,相比GTX 1080几乎翻倍。
SM单元构成
其实从上面的SM单元构成上我们可以看出,这次核心面积的暴涨其实不是因为单纯的堆砌CUDA数,而是因为引入了全新的RT CORE和TENSOR CORE造成的。
RT CORE 实时光线追踪
这次的20系显卡无论是在命名还是最大的卖点都毫无疑问的指向了一个词――RTX光线追踪技术,而老黄也强调这次的图灵显卡是可以支持REAL TIME实时的光线追踪,这对于图形影像方面具有划时代的意义。
其实,光线追踪(Ray Tracing)的概念在很早就已经被人所提出了。光线追踪技术其实就是讲光源产生的光线所产生的折射,反射等光线变化和对阴影产生的反应通过计算准确的反映到画面之中,为人们带来百分之百的光影效果。
光线追踪的演变经历了约半个世纪
光线追踪这一技术本身并没有多少的新鲜花样,其算法于1979年由Turner Whitted提出。那么为什么直到2006年,皮克斯的《Cars》才开始使用这项技术用于光线渲染呢?那就是因为其所需要的计算量实在是过于庞大,开头提到的Turner这张512×512的渲染DEMO当时支持的计算机就要耗费上百万美元,还是花费1.2小时才渲染完成,足见其耗费的资源算力是如何巨大。
光栅化和光线追踪的区别
那么NVIDIA是如何保证这庞大的算力需求的呢?前一篇我们已经讲过,每一个SM单元里都拥有一个RT CORE,其是专门为光线追踪服务的。而要了解RT CORE的工作原理,我们首先要了解光线追踪所运用到的算法:BVH。
BVH算法说明
BVH算法(【【微信】】chy Traversal),层次包围盒遍历的意思。
比如渲染对象是一只兔子,要几算一条光线和兔子本身的交互,就把兔子所在空间划分成N个包围盒,计算光线和哪一个包围盒相交,是的话就再把这个包围盒继续划分成N个更小的包围盒,再次计算相交,如此反复,一直找到和光线相交的三角形所在的包围盒,再对这个三角形进行最终的渲染。
BVH算法可以大大减少计算每一条光线最近相交点所需要遍历的三角形数量,而且只需要进行一次就能给所有光线使用,大大提高了执行效率。
RT CORE工作原理
那么RT CORE的工作原理就是,着色器(Shaders)发出光线追踪的请求,交给RT CORE来处理,RT CORE将进行两种测试,分别为Box Intersection E【【微信】】和Triangle Intersection E【【微信】】。基于BVH算法来判断,如果是方形,那么就返回缩小范围继续测试,如果是三角形,则反馈结果进行渲染。
RTX-OPS单位定位计算公式
而关于性能方面,由于是新技术,NVIDIA官方定义了一个光线追踪的计算方式,其单位为RTX-OPS,公式如上图所示。其中RTX 2080Ti为78T的RTX-OPS;RTX 2080则为 60T。而至于上一代的Pascal GTX 1080Ti也同样适用于这个公式,但因为没有RT CORE和TENSOR CORE,数值仅为11.3T,无法满足实时光线追踪的需求。
RTX光线追踪技术ON/OFF对比
而从上图中我们也可以看到,游戏场景中开关RTX无论是从画面表现还是场景互动上来说对游戏性的提升是非常巨大的。(《战地5》的开发人员曾说开启RTX功能后甚至可以从伸出墙外的枪身上来看拐角处是否有敌人)
TENSOR CORE和DLSS
其实TENSOR CORE对于我们来说并不陌生,其最早出现在Volta架构中,Turing架构在浮点精度上对其作了大量的优化工作来保证计算的准确性。
Turing TENSOR CORE计算维度
Tensor在中文里面的意思就是张量,区别于我们常见的标量(0维)、矢量(1维)、矩阵(2维),张量拥有3维或者更高维,本质核心上就是一个数据容器,可以包含更多维度数据。其主要应用就是目前大火的AI――深度学习,这里面主要会用到FMA矩阵融合计算,而TENSOR CORE的工作方式天生就适用于这种计算。
TENSOR CORE是一个数列的运算方式
它可以对两个4×4 FP16浮点矩阵进行相乘操作,然后将结果加入到另一个4×4 FP16/FP32浮点矩阵中,最终输出新的4×4 FP16/FP32矩阵,NVIDIA将【【微信】】进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。
每个时钟周期内,图灵架构的Tensor核心可以执行64个FMA运算,从而大大加速矩阵运算,除了新的神经图形功能外,还用于深度学习训练和推理操作。
NGX
而在加入TENSOR CORE之后,NVIDIA还为其配置了一个全新的神经图形框架:Neural Graphics Framework,简称NGX,其可以在游戏中实现诸如DLSS深度学习超采样抗锯齿、AISuper Rez超级分辨率、AI Slow-Mo慢动作、AI InPainting等等。
我们先来说说DLSS深度学习超采样抗锯齿。我们来详细的了解一下抗锯齿的原理和最早的SSAA抗锯齿进行举例。
由于高分辨率下的来源信号或连续的模拟信号能够存储较多的数据,但在通过取样(sampling)时将较多的数据以较少的数据点代替,部分的数据被忽略造成取样结果有损,使机器把取样后的数字信号转换为人类可辨别的模拟信号时造成彼此交叠且有损,在声音中,便会出现刺耳、不和谐的音调或是噪音。同样,在3D绘图时,每个图形由像素组成,每段瞬间画面由帧组成,因为屏幕上的像素有限,如果要表现出多边形的位置时,因技术所限,使用绝对坐标定位法是无法做到的,只能使用在近似位置采样来进行相对定位。由于没有足够的采样来表现出3D世界中的所有物品的图形,所以在最后图像显示上,这些现象便会造成在物品与物品中过渡的边缘就会产生波浪状、圆形、锯齿和闪烁等有损现象,严重影响了画面的质量。
如果没有抗锯齿......
超级采样抗锯齿(Super-Sampling Anti-aliasing,简称SSAA)是早期抗锯齿方法,比较消耗资源,但简单直接,先把图像映射到缓存并把它放大,再用超级采样把放大后的图像像素进行采样,一般选取2个或4个邻近像素,把这些采样混合起来后,生成的最终像素,令每个像素拥有邻近像素的特征,像素与像素之间的过渡色彩,就变得近似,令图形的边缘色彩过渡趋于平滑。再把最终像素还原回原来大小的图像,并保存到帧缓存也就是显存中,替代原图像存储起来,最后输出到显示器,显示出一帧画面。这样就等于把一幅模糊的大图,通过细腻化后再缩小成清晰的小图。如果每帧都进行抗锯齿处理,游戏或视频中的所有画面都带有抗锯齿效果。而将图像映射到缓存并把它放大时,放大的倍数被用于分别抗锯齿的效果。
DLSS工作原理
但是无论是哪种抗锯齿,玩家们都是在不影响画面美观度的基础上尽量开到最低,因为这玩意太耗费显卡的性能了。但是这一代的DLSS深度学习超采样抗锯齿却完全不会这样,简单的来说,NVIDIA会通过收集数千个以64×超级采样生成参考画面,经过对像素点进行64次偏移着色合成输出后,理论上画面细节具有近乎完美的图像效果。同时还会生成正常的渲染图像,然后要求DLSS网络响应输出对应结果,观察与64×超级采样画面差异,调整网络权重,经过多次迭代以后,DLSS自行学习产生的结果将具有与64×超级采样画面相同质量的细节,还可以避免TAA产生的运动模糊等问题。
传统TAA和DLSS 2×的细节对比
DLSS 2×相当于64×的超采样抗锯齿
而这一切的运算过程都是在NVIDIA的超算上进行的,不会消耗玩家的资源,NVIDIA会将每一次更新的结果放在显卡驱动中,玩家们只要通过驱动的更新就可以享受到针对自己显卡型号的最佳抗锯齿。
后续首发带有DLSS的游戏
而在官方的PPT中,也提到了确定加入DLSS支持的15款游戏,并且这个数字还在不断的扩大中。值得一提的是,这其中有5款游戏同时支持RTX光线追踪和DLSS抗锯齿技术,分别是《原子之心》、《逆水寒》、《剑网3》、《机甲战士5:雇佣兵》、《古墓丽影:暗影》。
N【【微信】】Ti图赏
在老黄开发布会前,我们其实一直在猜测今年的20系显卡究竟是个什么样子。虽然现在对于我们来说没什么悬念,但是当时一旦有新显卡外观发布时我们的内心还是好奇的,包括那张骗了我们很长一段时间的假想图,没办法,泰坦皮给我们的印象实在是太深刻了。
当时印象最深的猜想图
因此当老黄在发布会公布新显卡的外观时,相信不止我一个有这种”不好看“的想法的,我们失去了泰坦皮,失去了涡轮风扇,只得到了一台被网友吐槽酷似”煤气灶“的显卡。
但随着新显卡到手日期的日益临近,我心里还是有一些激动的,毕竟这可是慢慢的信仰在里面啊。
而直到我把它打开,才发现自己以前的想法是有多么愚蠢,不为别的,那细致的做工,边缘过渡的顺滑,甚至是显卡散发的香气,让我忍不住说出一句”行家啊“(是不是表情逐渐变态...)
那么我们废话不多所,一起来看看这代20系显卡是个什么样子吧。
测试平台环境一览
为保证此次评测能够发挥显卡的最佳性能,本次测试平台采用第八代Intel六核心十二线程的i7-8700K、七彩虹iGame Z370-X RNG Edition V20主板、超频3 超神 3200MHz 8GB×2内存、显示器为航嘉X2772CK、鑫谷 昆仑1080W的电源、机箱为金河田 峥嵘 MUT1。测试平台详细信息请看下图。
在测试成绩上,基准测试采用3DMARK和Unigine Superposition,游戏性能测试使用游戏自带Benchmark或同场景帧数对比,数值均为越高越好。
理论性能测试:
首先进行的是用来衡量显卡DX11理论性能的3DMARK FS套:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:
3DMARK FS套装 GPU成绩
在针对显卡DX11性能的3DMARK FS套装测试中,2080Ti在三种测试中均比1080Ti领先11%~15%左右,奇怪的是2080和2080Ti在FS套装的成绩差异较1080Ti更大,而实际游戏效果却和这次比较出入很大,后面会详细提及。
3DMARK TS套装 GPU成绩
而在针对DX12性能的Time Spy和Time Spy Extreme测试中,2080Ti比1080Ti理论性能领先30%左右,2080比1080Ti领先10%左右。
Unigine Superposition测试
而在Unigine Superposition测试中,运行1080P High画质,Turing显卡性能提升也是非常巨大的。
那么在实际游戏中,三者的差距是否会像理论测试中表现的这样呢?2080在DX11的表现就这么不堪吗?别急,马上进入实机游戏测试环节。
首先要说明的是,大家最关心的RTX在游戏中的实际帧数和画面表现目前并没有一款在售游戏支持,包括前两天刚刚发布的,出现在NVIDIA官方演示中的《古墓丽影:暗影》市售版也并没有出现RTX功能的选项,这是因为微软的DX12当中的DXR的API还没有正式发布,估计在DX12正式发布后支持RTX的游戏就会如雨后春笋一般冒出来,我们也会第一时间在支持RTX游戏发售后进行评测。
DX12游戏性能测试
在游戏性能测试环节,我们选用了2款DX12游戏:《杀手6》、《古墓丽影:暗影》和3款DX11游戏:《刺客信条起源》、《绝地求生》、《孤岛惊魂5》进行测试,测试分辨率为2K和4K。测试中我们把画面特效调至各游戏中的最高选项,关闭垂直同步,选用适当的抗锯齿,用游戏自带Benchmark或同场景使用Fraps记录平均帧数。首先是DX12游戏,结果如下:
《杀手6》帧数对比
《古墓丽影:暗影》帧数对比
接下来是DX11游戏:
《刺客信条:起源》帧数对比
《绝地求生》帧数对比
《孤岛惊魂5》帧数对比
在2K分辨率下,以上三款显卡均可以全程最高特效流畅运行,在帧数实际表现上,NVIDIA GeForce RTX 2080 Ti 显卡表现出了新卡皇的实力,同比领先上一代GTX 1080Ti将近15%~25%,而在20系显卡最拿手的4K分辨率下,2080Ti相比1080Ti帧数增长约25%~40%,毫不夸张的说,以前那些运行在4K卡成“PPT”的游戏现在均可最高特效流畅运行。
有意思的是,在前一页1080Ti在FS套装中分数是要高于2080的,而在游戏中实际表现2080在每项游戏中都是高于1080Ti的。看来有时候3DMARK也不能完全反应显卡在使用中的真实情况。
温度&功耗测试:
首先来看温度测试。室温25摄氏度,我们并没有采用全封闭式的机箱,而是采用测试平台的手法,这样做可以最大限度的保证显卡除了自身散热外将风道等外因减小到最低,如果是封闭式的机箱话需要在开放测试平台上加10到15摄氏度(取决于机箱风道设计的合理性)。
拷机温度测试
当上图的成绩跑出来的时候,我还是非常惊讶的。要知道取决于这次硕大的核心面积,发热量肯定是不低的,但是从实际来看2080Ti的发热量是和1080Ti的表现持平的。不过笔者在更换显卡测试的时候也会感觉到背板非常的烫,看来散热其实还是可以有进步的空间的。
而另一点要点赞的就是这代的风扇。N【【微信】】 Ti FE的做工没的说,一等一的棒。体现在风扇上就是转速非常均匀,同轴转动不会产生风扇偏离。另外涡轮风扇中的噪声大,易积灰的缺点通通不见,噪音非常小。
功耗测试
而在功耗测试中,三款显卡的表现如上图。在空载时,三款显卡的功耗差不多,2080Ti高出1080Ti 8W左右,满载后也相差不多。让我们吃惊的是2080,具有比1080Ti性能还要突出的同时满载瓦数明显降低,看来是制程帮了大忙。
十二年,一段旅程的结束,另一旅程的开始
通过前面的测试数据我们可以发现,无论是从3DMark的基准理论测试,还是从实际游戏性能出发,基于图灵架构的NVIDIA GeForce RTX 2080 Ti显卡所表现出来的性能和温度表现都是极其强悍的,其游戏性能是上一代GTX 1080Ti的1.3倍,在4K游戏性能下的表现更是无出其右,目前市售的所有游戏其都可以保证最高特效4k 60帧以上流畅运行。
众多玩家的游戏利器
当然,如果立足于纯参数对比,那么最强卡皇的存在应该是 N【【微信】】,毕竟其拥有完整的TU102核心,显存位宽也达到了惊人的48GB。不过因为其用途并不在游戏行业而是渲染、工程计算等,所以并不可相提并论。
而关于这次NVIDIA在新显卡上大肆宣传的RTX实时光线追踪技术,笔者苦于没有找到任何市售支持RTX的游戏而无法施展,究其原因前面也说过,就是因为微软的DX12中的DXR API还没有解禁,相信在不久的未来解禁后,RTX游戏会像雨后春笋般冒出来。然而目前NVIDIA官方给出了一段星球大战的支持RTX技术的演示DEMO,由于帧数测试软件并不能运行而且自带帧数并不能记录,所以我只能用直观视觉来表达我的感受。
2K下1080Ti能保证全程24帧不卡顿
我们都知道,一般电影的最高帧数是24帧,只要能够保证这个帧数,画面就会流畅。官方演示DEMO中分辨率分别设置为2K和4K,虽然在4K下,目测平均帧数只有12帧,观感上并不能流畅渲染,但是在2K环境下,NVIDIA GeForce RTX 2080 Ti显卡能够保持全程24帧实时渲染光影不卡顿,这在原来的显卡环境上是根本不存在的。
既然性能这么强劲,其价格自然也得对得起它的身价,目前NVIDIA GeForce RTX 2080 Ti显卡京东预约价格9999元(我差的是那1块钱吗),是上代公版GTX 1080 Ti价格的1.6倍,彰显其尊贵的身份,是众多发烧友超高级的玩伴。
嗯,真香!
NVIDIA在本世代的显卡中,将RTX放入了游戏业内标准之中,并拉拢业内众多游戏厂商为其保驾护航,添砖加瓦,这势必会对AMD的Vega系列造成很大的压力。究竟AMD能不能顶住这波压力制衡NVIDIA?还是Intel会横亘一脚加入其中三足鼎立?NVIDIA后期依靠RTX又会有什么技术上的延续?往后的显卡市场战况必将更加精彩,越发让人期待!