前不久我们刚评测完索泰RTX 4070 SUPER,在这张卡上,我们也是见证了生成式AI的魅力。在游戏和生产力上都能做到完美的平衡。今天我们继续来看一下RTX 4070Ti SUPER会有什么提升。
我们手中的这张显卡是索泰RTX 4070Ti SUPER TRINITY OC月白,作为一张次旗舰定位的显卡,外观就极具特色,所以在了解性能之前,先来看一下外观。
外观:
放眼望去,索泰RTX 4070Ti SUPER TRINITY OC月白全身装甲通过优雅的流线型曲面造型,带来一种柔和感。在这张显卡上几乎看不到锐利的直角,取而代之的是空气动力学设计的圆融柔美曲线外观,配合雅致纯粹的月白配色,给人一种清新而温柔的视觉美感。
背面高强度合金材料一体铸形而成的合金背板,可以增加显卡结构厚度,保护显卡的PCB,提升显卡的静电防护能力。尾部设计了独特造型的开孔,让风扇的气流能够低阻穿透鳍片和背板,实现更高效的散热。
顶部搭载信仰LOGO灯,彩虹拱桥造型的ARGB灯带,梦幻而优雅,支持1600万色调节,在索泰Fire Storm中有多种灯效可供选择。
左侧不锈钢I/O面板区域,支持三个DP 1.4a接口和一个HDMI 2.1接口。
电源供电依旧采用的是16pin的12VHPWR,包装盒内能找到一根双8pin的转接线。
散热上,采用的是ICESTORM2.0散热系统,加厚、加高的镀镍散热鳍片模组,提升鳍片散热面积和导热能力,轻松应对散热挑战。三个9CM大尺寸仿生盾鳞2.0风扇,不仅扇叶面积提升,优化每一片扇叶的曲率和鳞状仿生条纹,提升风扇风量、风压和风流。FREEZE智能停转功能,动静交由AI掌握,可以在高、低温度和负载之间让风扇智能启停,减少噪音,以提供更佳的使用体验,增加风扇使用寿命。
测试环境:
性能:
从参数性能上来看,索泰RTX 4070Ti SUPER TRINITY OC月白,使用Ada Lovelace架构,核心代号AD103-275,核心工艺TSMC 4N。这张显卡拥有8448个流处理器,光栅单元96颗,纹理单元264颗,位宽256bit、带宽672GB/s,基础频率2340MHz,加速频率2640MHz,TGP功耗285W。反观RTX 4070 Ti 12GB,其拥有7680个流处理器,光栅单元80颗,纹理单元240颗,TGP功耗285W。与之相比,RTX 4070 Ti SUPER增加了768个CUDA核心,显存容量增加4GB,整体规格涨幅10%,但是功耗相同更加的节能。
索泰RTX 4070Ti SUPER TRINITY OC使用的NVIDIA Ada Lovelace 架构,它涵盖了如下创新技术:
(1)全新SM多单元流处理器可以提供高达 2 倍的性能和功耗效率。
(2)第四代张量核心(Tensor Core)能实现和加速变革性 AI技术,我们熟知的 DLSS 技术就得益于它。
(3)第三代光线追踪核心(RT Core),有着高达 2 倍的光线追踪性能,提供令人难以置信的细节,带玩家前往前所未有的虚拟世界。
(4)着色器执行重新排序(SER)将光线追踪操作提高了2倍。
(5)拥有64MB的 L2 缓存,提供更好的性能、减少内存总线流量和更高的能效。
(6)DLSS 3.5,AI 驱动图形的革命性突破,可大幅提升性能,并通过神经渲染提升光线追踪质量,带来极为逼真的画面。
(7)全新的第八代NVENC双硬件编码器,支持AV1,有效提升了生产力方面的表现,对于创作型用户、游戏主播等群体来说更是如虎添翼。
我们使用3DMark进行了几项常规测试,并与RTX 3070 Ti来进行对比。每一项数据RTX 4070 Ti SUPER 都是碾压的,整体数据提升了60%。仅仅是数据上就有如此大的差距,如果在游戏中进行实测,开启DLSS 3、Reflex等黑科技后,恐怕还会更加夸张。
我们使用Furmark进行30分钟左右的烤机,显卡平均温度在66.7度,功率约285W,显存频率2625Mhz。
待机时,显卡温度26.2度,功耗13W,非常的节能。
NVIDIA的DLSS技术本质是通过深度学习算法将单帧的低分辨率提升成高分辨率,让游戏帧率获得大幅度提升。DLSS 3在超分辨率、DLAA的基础上增加了帧生成技术:利用AI技术生成更多的帧,以进一步提高性能。当我们在游戏中开启DLSS 3后,游戏渲染分辨率降低,运算压力也就变小了,AI就会智能的根据当前的图像以及之前渲染好的图像,自动运算构建出在高分辨率下的画面。
目前已经有超过500款游戏和应用支持NVIDIA RTX技术,RTX游戏玩家每周花费8700万小时玩光追游戏,其中97%的时间都是在玩《赛博朋克2077》.我们也期待未来有越来越多的游戏支持这项技术。
我们在1440p 2k分辨率下,在最高画质下开启DLSS,众多游戏都超过了100帧,也有接近200的。相比RTX 3070 Ti,平均涨幅高达120%。
目前DLSS已经升级到了3.5,主要是针对光追游戏,增加了光线重建技术,这个AI模型可以进一步提升密集型光追游戏和应用的光线追踪图像。光线重建将此前人工设计的图形降噪器替换成了经过NVIDIA 超级计算器训练的AI网络。光线重建可以从训练数据中识别光照模式,例如全局光照或环境光遮蔽的光照模式,其最终效果比需要人工设计的降噪器更出色。
《赛博朋克2077》就是一款支持DLSS 3.5的游戏,我们开启和关闭光线重建来进行对比。这是一处水塘,正好反射出了一块霓虹广告牌,在没有开启DLSS3.5时,水面上非常模糊,几乎看不清楚广告上面的字。而开启后,则是非常清晰,游戏体验拉满。
《心灵杀手2》也支持DLSS3.5,地面上阳光照射在建筑物上的倒影,通过肉眼我们能明显的看出光线重建开关的区别。没开时,地上的阴影就是一团黑,而开启后建筑的轮廓和边缘能清晰的分辨。
NVIDIA Reflex技术普遍运用在FPS游戏上,这一技术主要是同步GPU和CPU,通过删除CPU到GPU之间的渲染队列,优化响应速度并降低系统延迟。它包含两项技术:一项是 Reflex 低延迟模式,用于缩短游戏中的系统延迟,以帮助玩家提升竞技表现;另一项是 Reflex 分析器,用于轻松快速地测量系统延迟。
我们可以在FPS游戏内将NVIDIA Reflex设置为开启+增强,我们也是选择了几款热门FPS游戏如《Apex英雄》,《无畏契约》进行测试。
1%low帧是将帧数进行从大到小排序,取最后1%范围内的平均。可以发现它还是比较接近平均帧的,说明跳帧幅度很小。PC性能延迟也都小于10ms,在竞技游戏中能更好的展现水准。
索泰RTX 4070Ti SUPER TRINITY OC的TGP功耗在285W,但是不同游戏的温度和功耗也会不同,就像帧率一样。在2k分辨率下,各游戏功耗大约在250W,GPU温度也在50到55度的区间内。
除了游戏方面,在STUDIO创作,SUPER系列也迎来了重大提升。NVIDIA STUDIO可为有110多款应用加速,索泰RTX 4070Ti SUPER TRINITY OC大将在3D渲染方面可以缩短渲染时间,DLSS功能的加入也能提升画面帧数;支持AV1解码器可以增加视频清晰度;还有比如超分图片的全新生成式AI软件的加入。
使用Blender Open Data benchmark进行测试,它会自动渲染官方支持的Blender基准测试场景,并显示其渲染时间。他有三项测试,monster,junkshop和classroom,成绩分别为3664,1759,1830个样本每分钟。
OctaneRender是一个公正且准确的 GPU 渲染引擎,能够利用NVIDIA的CUDA和RTX系列GPU为创作者提供快速、高质量的渲染输出。OctaneRender可用于所有创作3D软件。该基准测试将测量 4 个单独场景的渲染性能,每个场景使用 3 个不同的OctaneRender、Info Channels、Direct Lighting和Path Tracing 中的渲染选项,得分861.78。
GeForce RTX 40系列GPU使用NVIDIA NVENC为AV1视频编解码器提供硬件加速编码功能。AV1与H.265/H.264在相同的比特率下可以提供更好的视觉质量,在画面质量相同的情况下使用AV1,比特率会更低,文件大小更小,视频上传更快。除了添加AV1编码支持外,40系列GPU还具有生成改进功能用于H.265(HEVC)编码的NVENC。
在剪映专业版上已经支持AV1编解码器加速。我们尝试渲染导出了4k30帧,时长为10分钟的视频,来对比AV1和H.264。AV1编码导出视频的大小在1.52GB,而H.264编码导出视频的大小则是1.98GB。
在观看直播时也有AV1和H.264两种编解码器,在4k 60fps、10 Mbps体验一下两者的视觉质量。不难看出AV1下观看直播,视频会高清非常多,H.264则模糊不清。
ON1 Resize A是图片无损放大软件软件,搭载最先进的神经网络和领先的AI人工智能技术以及全新的超分辨率技术。原本一张6M的照片在放大后变成了30M,下图是我们将两张图片放大3倍,可以直观的图像并没有任何失真,色彩过渡自然,根本看不出这是经过放大过后的图片。
D5渲染器是一款基于实时光线追踪技术的3D渲染软件,支持多种模型、材质和光源。它也融合了最新的 NVIDIA DLSS 3.5技术,例如DLSS光线重建以及现有的DLSS技术,例如DLSS超分辨率,以及DLSS帧生成。
我们渲染了一段视频并通过开启或关闭DLSS来观察帧率的变化。在开启DLSS后平均帧率翻了3倍,1%low帧与平均帧的差值也减少了。
接下来我们再来看一下开启或者关闭光线重建画面会有什么样的变化。第一张椅子脚的照片,可以看到关闭光线重建,噪点肉眼可见。第二张是桌子对窗外景色的反射,光线重建未开启时噪点依旧非常明显,而且画面比较模糊。反观两幅图在开启光线重建后噪点大幅度减少了画面也清晰了。
RTX VSR是一种AI技术用于提升视频播放质量上,在NVIDIA控制面板中,我们可以打开RTX视频增强,同时也有自动、1、2、3、4五个挡位可以调节。1是最低,4是最高。
我们观看了一段视频从关闭到质量4五个个挡位来对比画面质量,肉眼就能非常直观的发现,从充满像素颗粒到清晰。
Stable Diffusion是一个基于图像的AI模型,使用户能轻松地将文本描述转换为复杂的视觉表现。Stable Diffusion AI模型利用GPU加速优势,使创作者能进行快速创建和完善,以获得理想输出,其速度比在CPU上处理AI模型快数百倍。
在1024×1024图像数据上训练SDXL模型并开启TRT加速,耗时92秒,经计算得出每分钟6.5张图片。
在512×512图像数据上训练SD1.5模型并开启TRT加速,耗时约20秒,经计算得出每分钟30张图片。
不开启TRT加速时,在1024×1024图像数据上训练SDXL模型则耗时208秒,每分钟生成了2.88张图片。相比开启TRT,速度慢了一倍还多。
也是在不开启TRT加速的情况下,在512×512图像数据上训练SD1.5模型,耗时35.5秒,经计算每分钟生成16.9张图片。比开启时慢了77%。
仅在SD1.5模型下使用更高批量大小来测试TRT性能,在512×512图像下,耗时64秒,每分钟可生成18.75张图片。在768×768图像下,耗时190秒,每分钟可生成6.3张图片。
在SD测试上,两种模型在开启TRT加速后,每分钟生成的图片都翻了一倍。NVIDIA为RTX 4070 Ti SUPER带来了了全新的生成式AI,将AI应用的浪潮推向了PC,也将这张显卡的受众拓展到了更加广泛的领域,建模师,剪辑等等职业都非常适合。
总结:
从索泰RTX 4070Ti SUPER TRINITY OC上手给人的那一份厚重感开始,就注定了这张显卡的不简单。从4070Ti的12GB显存提升到为了16GB,有着更强的数据处理能力,游戏也会更加流畅。2k游戏上超越100帧的表现,配合生成式AI在生产力上的巨大贡献,或许没有那么让人感觉到惊艳,但是如果告诉你它的价格与4070Ti持平,是不是性价比一下子就出来了呢。