这周轮到RTX 4070 Ti SUPER 解禁发布了,说实话又是Ti,又是SUPER结尾,确实有点拗口和复杂。在上周的70S上我们看到了AI在SUPER系列上的强力作用。4070 Ti SUPER的AI Tensor Core中有着706 AI TOPS,以及高达44 SHADER TFLOPS、102 RT TFLOP比70S增加了138 AI TOPS,8 SHADER TFLOPS和20 RT TFLOP。
今天我们就来了解一下在AI助力下的影驰RTX 4070 Ti SUPER 大将究竟如何,在看性能之前,还是先来看一下大将的外观。
外观:
影驰RTX 4070 Ti SUPER 大将覆盖黑色装甲配合表面不规则突起的线条花纹犹如隐藏在黑夜中的将军,彰显霸气。三风扇设计,带来更好的散热。
背面金属背板上左边印有GALAX和GeForce RTX字样给人一种大气之感,白色的喷涂在蓝色底座上格外显眼。右侧大面积开孔,可以配合散热,同时也用白色进行描边,富含设计意味,也能把目光吸引在中间的散热模块上。
侧边不锈钢I/O面板三个DP 1.4接口,一个HDMI2.1接口。
顶部GALAX字体在通电后会亮起,全面升级的ARGB灯效支持灯效同步会和主板、内存条灯交相辉映。电源接口采用12VHPWR,包装内可以找到一更双8pin转接线。
测试环境:
性能:
从参数性能上来看,影驰RTX 4070 Ti SUPER 大将,使用Ada Lovelace架构,核心代号AD103-275,核心工艺TSMC 4N,8448个流处理器,光栅单元96颗,纹理单元264颗,位宽256bit、带宽672GB/s,基础频率2340MHz,加速频率2640MHz,TGP功耗285W。相比RTX 4070 Ti 12GB,7680个流处理器,光栅单元80颗,纹理单元240颗,TGP功耗285W。RTX 4070 Ti SUPER增加了768个CUDA核心,显存容量增加4GB,整体规格涨幅10%,但是功耗相同更加的节能。
影驰RTX 4070 Ti SUPER 大将使用的NVIDIA Ada Lovelace 架构,它涵盖了如下创新技术:
(1)全新流式单元处理器(SM)可以提供高达 2 倍的性能和功耗效率。
(2)第四代张量核心(Tensor Core)能实现和加速变革性 AI技术,我们熟知的 DLSS 3的帧生成技术就得益于它。
(3)第三代光线追踪核心(RT Core),有着高达 2 倍的光线追踪性能,提供令人难以置信的细节,带玩家前往前所未有的虚拟世界。
(4)着色器执行重新排序(SER)将光线追踪操作提高了2倍。
(5)拥有48MB的 L2 缓存,提供更好的性能、减少内存总线流量和更高的能效。
(6)DLSS 3.5,AI 驱动图形的革命性突破,可大幅提升性能,并通过神经渲染提升光线追踪质量,带来极为逼真的画面。
(7)全新的第八代NVENC双硬件编码器,支持AV1,有效提升了生产力方面的表现,对于创作型用户、游戏主播等群体来说更是如虎添翼。
我们使用3DMark进行了几项常规测试,并与RTX 3070 Ti来进行对比。每一项数据RTX 4070 Ti SUPER 都是碾压的,整体数据提升了60%。仅仅是数据上就有如此大的差距,如果在游戏中进行实测,开启DLSS 3、Reflex等黑科技后,恐怕还会更加夸张。
我们使用Furmark进行十五分钟左右的烤机,显卡平均温度在61.2度,功率约285W,显存频率2625Mhz。
散热上,全新星烽散热器,异形构造的外观造型,多维度散热体系,芯片、显存、供电全覆盖散热,配合8根6mm复合热管,能有效降低核心温度。致密的鳍片设计结合回流焊接工艺,金属背板的尾端大开孔透气设计,带来了更强的散热性能。三个92mm特制静霜风扇支持智能启停。
待机时,下那块温度26.2度,功耗13W,非常的节能。
NVIDIA的DLSS技术本质是通过深度学习算法将单帧的低分辨率提升成高分辨率,让游戏帧率获得大幅度提升。DLSS 3在超分辨率、DLAA的基础上增加了帧生成技术:利用AI技术生成更多的帧,以进一步提高性能。当我们在游戏中开启DLSS 3后,游戏渲染分辨率降低,运算压力也就变小了,AI就会智能的根据当前的图像以及之前渲染好的图像,自动运算构建出在高分辨率下的画面。
目前已经有超过500款游戏和应用支持NVIDIA RTX技术,RTX游戏玩家每周花费8700万小时玩光追游戏,其中97%的时间都是在玩《赛博朋克2077》.我们也期待未来有越来越多的游戏支持这项技术。
我们在1440p 2k分辨率下,在最高画质下开启DLSS,众多游戏都超过了100帧,也有接近200的。相比RTX 3070 Ti,平均涨幅高达120%。
目前DLSS已经升级到了3.5,主要是针对光追游戏,增加了光线重建技术,这个AI模型可以进一步提升密集型光追游戏和应用的光线追踪图像。光线重建将此前人工设计的图形降噪器替换成了经过NVIDIA 超级计算器训练的AI网络。光线重建可以从训练数据中识别光照模式,例如全局光照或环境光遮蔽的光照模式,其最终效果比需要人工设计的降噪器更出色。
《赛博朋克2077》就是一款支持DLSS 3.5的游戏,我们开启和关闭光线重建来进行对比。这是一处水塘,正好反射出了一块霓虹广告牌,在没有开启DLSS3.5时,水面上非常模糊,几乎看不清楚广告上面的字。而开启后,则是非常清晰,游戏体验拉满。
《心灵杀手2》也支持DLSS3.5,地面上阳光照射在建筑物上的倒影,通过肉眼我们能明显的看出光线重建开关的区别。没开时,地上的阴影就是一团黑,而开启后建筑的轮廓和边缘能清晰的分辨。
NVIDIA Reflex技术普遍运用在FPS游戏上,这一技术主要是同步GPU和CPU,通过删除CPU到GPU之间的渲染队列,优化响应速度并降低系统延迟。它包含两项技术:一项是 Reflex 低延迟模式,用于缩短游戏中的系统延迟,以帮助玩家提升竞技表现;另一项是 Reflex 分析器,用于轻松快速地测量系统延迟。
我们可以在FPS游戏内将NVIDIA Reflex设置为开启+增强,我们也是选择了几款热门FPS游戏如《Apex英雄》,《无畏契约》进行测试。
1%low帧是将帧数进行从大到小排序,取最后1%范围内的平均。可以发现它还是比较接近平均帧的,说明跳帧幅度很小。PC性能延迟也都小于10ms,在竞技游戏中能更好的展现水准。
影驰GeForce RTX 4070 Ti SUPER大将的TGP功耗在285W,但是不同游戏的温度和功耗也会不同,就像帧率一样。在2k分辨率下,各游戏功耗大约在250W,GPU温度也在50到55度的区间内。
除了游戏方面,在STUDIO创作,SUPER系列也迎来了重大提升。NVIDIA STUDIO可为有110多款应用加速,影驰GeForce RTX 4070 Ti SUPER大将在3D渲染方面可以缩短渲染时间,DLSS功能的加入也能提升画面帧数;支持AV1解码器可以增加视频清晰度;还有比如超分图片的全新生成式AI软件的加入。
使用Blender Open Data benchmark进行测试,它会自动渲染官方支持的Blender基准测试场景,并显示其渲染时间。他有三项测试,monster,junkshop和classroom,成绩分别为3664,1759,1830个样本每分钟。
OctaneRender是一个公正且准确的 GPU 渲染引擎,能够利用NVIDIA的CUDA和RTX系列GPU为创作者提供快速、高质量的渲染输出。OctaneRender可用于所有创作3D软件。该基准测试将测量 4 个单独场景的渲染性能,每个场景使用 3 个不同的OctaneRender、Info Channels、Direct Lighting和Path Tracing 中的渲染选项,得分861.78。
GeForce RTX 40系列GPU使用第八代NVENC为AV1视频编码器提供硬件加速编码功能。AV1与H.265/H.264在相同的比特率下可以提供更好的视觉质量,在画面质量相同的情况下使用AV1,比特率会更低,文件大小更小,视频上传更快。除了添加AV1编码支持外,40系列GPU还具有生成改进功能用于H.265(HEVC)编码的NVENC。
在达芬奇18.6版本上就可以选择AV1作为编解码器。我们尝试渲染导出了8k30帧和4k30帧,时长为44秒的视频,来对比AV1和H.265两个编码器的速度和图像质量。两者导出速度相差并不大。
在4K30FPS的视频下将两个画面进行对比,可以比较明显的看出H.265在细节和暗部会比较模糊,尤其是背后的房间。
在观看直播时也有AV1和H.264两种编解码器,在4k 60fps、10 Mbps体验一下两者的视觉质量。不难看出AV1下观看直播,视频会高清非常多,H.264则模糊不清。
ON1 Resize A是图片无损放大软件软件,搭载最先进的神经网络和领先的AI人工智能技术以及全新的超分辨率技术。原本一张6M的照片在放大后变成了30M,下图是我们将两张图片放大3倍,可以直观的图像并没有任何失真,色彩过渡自然,根本看不出这是经过放大过后的图片。
D5渲染器是一款基于实时光线追踪技术的3D渲染软件,支持多种模型、材质和光源。它也融合了最新的 NVIDIA DLSS 3.5技术,例如DLSS光线重建以及现有的DLSS技术,例如DLSS超分辨率,以及DLSS帧生成。
我们渲染了一段视频并通过开启或关闭DLSS来观察帧率的变化。在开启DLSS后平均帧率翻了3倍,1%low帧与平均帧的差值也减少了。
接下来我们再来看一下开启或者关闭光线重建画面会有什么样的变化。第一张椅子脚的照片,可以看到关闭光线重建,噪点肉眼可见。第二张是桌子对窗外景色的反射,光线重建未开启时噪点依旧非常明显,而且画面比较模糊。反观两幅图在开启光线重建后噪点大幅度减少了画面也清晰了。
RTX VSR是一种AI技术用于提升视频播放质量上,在NVIDIA控制面板中,我们可以打开RTX视频增强,同时也有1、2、3、4四个挡位可以调节。1是最低,4是最高。
我们观看了一段视频从关闭,质量1,质量3,三个挡位来对比画面质量,肉眼就能非常直观的发现,从充满像素颗粒到清晰。
Stable Diffusion是一个基于图像的AI模型,使用户能轻松地将文本描述转换为复杂的视觉表现。Stable Diffusion AI模型利用GPU加速优势,使创作者能进行快速创建和完善,以获得理想输出,其速度比在CPU上处理AI模型快数百倍。
在1024×1024图像数据上训练SDXL模型并开启TRT加速,耗时92秒,经计算得出每分钟6.5张图片。
在1024×1024图像数据上训练SDXL模型并开启TRT加速,耗时92秒,经计算得出每分钟6.5张图片。
在512×512图像数据上训练SD1.5模型并开启TRT加速,耗时约20秒,经计算得出每分钟30张图片。
不开启TRT加速时,在1024×1024图像数据上训练SDXL模型则耗时208秒,每分钟生成了2.88张图片。相比开启TRT,速度慢了一倍还多。
也是在不开启TRT加速的情况下,在512×512图像数据上训练SD1.5模型,耗时35.5秒,经计算每分钟生成16.9张图片。比开启时慢了77%。
仅在SD1.5模型下使用更高批量大小来测试TRT性能,在512×512图像下,耗时64秒,每分钟可生成18.75张图片。在768×768图像下,耗时190秒,每分钟可生成6.3张图片。
在SD测试上,两种模型在开启TRT加速后,每分钟生成的图片都翻了一倍。NVIDIA为RTX 4070 Ti SUPER带来了了全新的生成式AI,将AI应用的浪潮推向了PC,也将这张显卡的受众拓展到了更加广泛的领域,建模师,剪辑等等职业都非常适合。
总结:
现在的显卡已经跳脱出了“游戏”这一刻板印象,在生产力和创作上也能做出卓越贡献。影驰RTX 4070 Ti SUPER 大将在一上手时就感觉用料非常扎实,因为确实很重,后面不管是游戏测试还是生产力测试都表现出了不错的成绩,而且功耗也是相当的低。对于游戏发烧友、视频剪辑、艺术创作者这部分人群还是相当合适的。最后是大家最关心的价格问题:加量不加价,完全是与RTX 4070 Ti持平的价格,突出一个高性价比。