大家好,我是加勒比考斯。
随着小黑盒上面的周免游戏越领越多,以及Stable Diffusion AI绘图越来越好玩,相信很多玩家同我的心情一样,急切想拥有一张好显卡,快乐的游戏、绘图、以及办公摸鱼。
这段时间我真的是看了无数张显卡的评测内容,一遍又一遍看显卡天梯排行榜,一个一个对比价格与参数,从各个品牌口碑里面选来选来,最终下手了索泰RTX 4070Ti SUPER Trinity OC月白显卡。
原因主要有以下:
1、我查看了各种评测文章,发现4070TiS性能释放都大差不差,这时候能选择的只剩下性价比、设计感、散热、售后以及品牌实力。
2、外观好看其实是很大的一部分选择原因,索泰RTX 4070Ti SUPER Trinity OC月白这张显卡极具设计感,白色显卡本来就少,另外它采用曲线设计,还有ARGB彩虹拱桥灯带,颜值方面毋庸置疑。
3、索泰RTX 4070Ti SUPER Trinity OC月白的散热很好,它采用9cm大尺寸仿生盾鳞2.0风扇加上加厚、加高的镀镍散热鳍片模组,散热方面完全不用担心。
4、品牌实力非常强,索泰属于全球一线显卡品牌,是NVIDIA的全球核心AIC(扩展卡制造商),它隶属于栢能集团,该集团是世界上最大的显卡生产商之一,所以无论是性能、品质、口碑还是售后都非常好。
5、最后是价格,这也是最重要的,它只要6699的价格,这在一线品牌里面是最低的。所以综合而言,我下手了索泰RTX 4070Ti SUPER Trinity OC月白。
主要有2个原因:
1、买新不买旧!RTX 4070Ti SUPER是在今年年初的CES2024发布,NVIDIA同时还发布了RTX 4080 SUPER和RTX 4070 SUPER。
请注意:新显卡除游戏办公性能提升外,均加入生成式 AI功能。
2、Super系列没有涨价!
RTX 4070 Ti SUPER和RTX 4070 SUPER的售价与之前的相应版本持平。RTX 4080 SUPER的发售价甚至比RTX 4080低了约16.7%。
40系显卡阵营最核心的部分当属NVIDIA Ada Lovelace 架构,它在性能、能效和 AI 加速方面带来了重大突破。所以在介绍索泰RTX 4070Ti SUPER Trinity OC月白之前,我们先来理一理为什么可以选择40系显卡,Ada Lovelace 架构的优势在哪里?
RTX 4070 Ti SUPER是首款拥有256Bit显存位宽的RTX 4070系列显卡,同时还采用了更高一级的AD 103核心。芯片面积378.6平方毫米,集成了多达459亿个晶体管。完整的AD103核心是为4080准备的,而AD103-275核心,也就是RTX 4070 Ti SUPER,直接屏蔽掉了下面一组GPC,一共还剩6组GPC、33组TPC、66个SM单元共8448个流处理器。此外,它还有264个第四代Tensor张量核心、66个第三代RT光追核心、264个纹理单元、96个ROP单元以及48MB二级缓存。
1.1、第三代 RT 核心:提供了前一代的2倍光线追踪性能,为真实感渲染提供了突破性的性能。
1.2、第四代 Tensor 核心:设计用于加速变革性的 AI 技术,使用新的 FP8 Transformer Engine,提供了高达前一代 4 倍的推理性能。
1.3、CUDA 核心:Ada 基础的 CUDA核心为单精度浮点 (FP32) 运算提供了前一代 GPU 的2倍速度处理能力。
2.1、Shader Execution Reordering (SER):动态地重新组织低效的工作负载,显著提高了着色器在光线追踪操作中的性能,最多可提高游戏帧率 25%。
2.2、DLSS 3:NVIDIA DLSS 3 是基于 AI 的图形的一项革命性突破,大幅提升了性能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭载的全新第四代 Tensor Core 和光流加速器提供支持,可使用 AI 创建额外的高质量帧。
3.1、AV1 编码器:Ada 架构的显卡配备了新的第八代 NVIDIA Encoders (NVENC),支持 AV1 编码,与 H.264 相比,编码效率提高了 40%,允许以相同比特率和质量下,将 1080p 的流分辨率提高到 1440p。
4.1、4N 制造工艺:NVIDIA工程师与台积电紧密合作,开发了专门为NVIDIA GPU设计的4N制造工艺。这种更先进的工艺使得在芯片中集成更多处理单元和内存成为可能。比如虽然 GeForce RTX 4090 的 Boost Clock 频率达到了 2.5 GHz,比上一代的旗舰产品 RTX 3090 Ti 高出 660 MHz,但其总图形功率(TGP)仍为 450W。与上一代的 Ampere 架构相比,Ada 架构的能效提高了2倍。
5.1、光线-三角形交叉测试:速度提高了2倍,使得光线追踪更加高效。
5.2、Opacity Micromap Engine (OMM) 和 Displaced Micro-Mesh Engine (DMM):这两种引擎分别加速了 alpha-tested 纹理的光线追踪和几何复杂场景的实时光线追踪。
如果看不懂没关系,再简单总结一下:
40 系列显卡相较于 30 系列显卡在多个方面有显著的提升,无论是光栅化性能、光线追踪性能、DLSS 性能都是2倍以上的提升!无论是打游戏还是内容创作体验提升都非常大。
索泰(ZOTAC)是全球知名的显卡品牌,隶属于栢能集团,是NVIDIA的核心合作伙伴之一。索泰一直以其高性能、创新设计和时尚风格而闻名,我买的这块是RTX 4070Ti SUPER Trinity OC月白显卡。
索泰RTX 4070Ti SUPER Trinity OC月白显卡是基于3风扇设计,外型采用曲线设计,正面盖板纯白,十分百搭。注意:正面3个风扇是9CM大尺寸仿生盾鳞2.0风扇,不仅扇叶面积提升,而且优化了每一片扇叶的曲率和鳞状仿生条纹,可以提升风扇风量、风压和风流。
其中RGB区域是透明亚克力装饰,里面印有ZOTAC Gaming字样与4道ARGB彩虹桥灯带,支持1600万色调色及多种灯效模式调节,可以根据个人需求变换个性灯效。
背部是有镂空设计的高强度合金材料一体铸形而成的合金背板,合金型材不仅可以为显卡PCB板提供足够的支撑,避免长期使用时因其自身重力而变形,而且可以为显卡提供非常好的散热能力,让显卡即使长时间,大负荷的使用,也不易过降频。另外还能提升显卡静电防护能力。
另外透过镂空区域,可以看到内置加厚、加高的镀镍散热鳍片模组,能够大幅度提升鳍片散热面积和导热能力。
供电部分,索泰RTX 4070Ti SUPER Trinity OC月白显卡为16Pin的PCIe 5.0供电接口。
接口部分,索泰RTX 4070Ti SUPER Trinity OC月白显卡配备了3个DP1.4a接口与1个HDMI 2.1接口。
显卡的尾部可以清晰的看到索泰RTX 4070Ti S背部5根热管的尾端。值得一提的是索泰RTX 4070Ti SUPER Trinity OC月白显卡的散热部分采用了最新的lceStorm 2.0散热系统,可以进一步优化显卡散热效能,即便是满载游玩各类3A大型游戏,也能轻松压住温度。
实际光效如下:
另外关于功能设计方面:
1、索泰RTX 4070Ti SUPER Trinity OC月白显卡属于OC版本,即采用出厂超频设计,且都为单BIOS设计。
2、显卡拥有FIRESTORM管控软件
全新升级的索泰FireStorm管控软件,专为RTX40系列显卡优化打造:具有更为直观的GPU微调界面。提供一系列的调整及监测选项,包括:显卡核心频率、显存频率、风扇转速、风扇曲线调整、SPECTRA 2.0灯效等。操作更为简单快捷,能够快速上手。
终于到了游戏实测部分,本次采用的测试平台配置表如下:
3DMark Fire Strike Ultra 测试
Fire Strike 是一项适用于高性能游戏电脑和超频系统的 DirectX 11 基准测试。即使对于最新的显卡而言,Fire Strike 测试也非常严苛,而Fire Strike Ultra是其4K版本。
通过3DMark Fire Strike Ultra测试可以看到,索泰RTX 4070Ti SUPER Trinity OC月白显卡图形分数达到了14956分,平均温度67℃,热点温度最高74℃,核心运行平均频率为2744MHz。
为了更加直观地表示这个结果,我使用3DMark Fire Strike Ultra 测试里面的预估游戏帧率来给大家展示显卡实际性能表现。
3D MARK Time Spy Extreme测试
3D MARK专为DirectX 12设计的Time Spy Extreme, Time Spy是一个DirectX 12 基准测试,支持原生新的API 功能,如异步计算,显式多显卡适配器技术和多线程,而其Extreme版本则是将分辨率提升至4K。
首先咱们进行Time Spy基础测试,可以看到索泰RTX 4070Ti SUPER Trinity OC月白显卡图形分数达到了23736分,平均温度69℃,热点温度最高71℃,核心运行平均频率为2722MHz。
接下来咱们进行Time Spy Extreme测试,可以看到索泰RTX 4070Ti SUPER Trinity OC月白显卡图形分数达到了11928分,平均温度69℃,热点温度最高71℃,核心运行平均频率为2656MHz。
为了更加直观地表示这个结果,我使用3D MARK Time Spy Extreme测试里面的预估游戏帧率来给大家展示显卡实际性能表现。
可以看到战地5、APEX英雄、侠盗猎车手5、荒野大镖客2、堡垒之夜等游戏在1440P最高画质下均可以达到100+以上的帧率。
极限竞速:地平线4
2K分辨率,最高画质下,平均帧数为168.3帧,最低帧数为153.7帧。
4K分辨率,最高画质下,平均帧数为166.6帧,最低帧数为153.4帧。
极限竞速:地平线5
在2K分辨率,打开NVIDIA DLSS AI超分辨率(超高性能)、DLAA关闭、帧生成技术开启,其余均为最顶配置,平均帧率有111.6帧。
在4K分辨率,打开NVIDIA DLSS AI超分辨率(超高性能)、DLAA关闭、帧生成技术开启,其余均为最顶配置,平均帧率有117帧。
赛博朋克2077
在2K分辨率,打开NVIDIA DLSS质量(超级性能)、DLAA关闭、帧生成技术开启,其余均为最顶配置,平均帧率有204帧。
在4K分辨率,打开NVIDIA DLSS质量(超级性能)、DLAA关闭、帧生成技术开启,其余均为最顶配置,平均帧率有126帧。
古墓丽影:暗影
在2K分辨率,打开NVIDIA DLSS(超级性能)、打开光线追踪,最高画质,平均帧率有292帧。
在4K分辨率,打开NVIDIA DLSS(超级性能)、打开光线追踪,最高画质,平均帧率有204帧。
看门狗:军团
在2K分辨率,打开NVIDIA DLSS(性能)、打开光线追踪,最高画质,平均帧率有120帧。这只有性能模式。
在4K分辨率,打开NVIDIA DLSS(超级性能)、打开光线追踪,最高画质,平均帧率有108帧。
孤岛惊魂6
该游戏不支持英伟达DLSS。
在2K分辨率下,最高画质,平均帧率有186帧。。
在4K分辨率,最高画质,平均帧率有117帧。
总的来说,在2K分辨率里面,基本上都开启DLSS 2,索泰RTX 4070Ti SUPER Trinity OC月白表现相当出色,大部分游戏光靠DLSS 2就能实现高刷体验,这点对于它非常简单。
而在4K分辨率里面,DLSS 3才是RTX 40系显卡的升级重点,DLSS早就带来了超分辨率技术,让显卡能够利用AI对低分辨率的画面超分出高分辨率的画面,从而实现游戏帧数的提升,现在的DLSS 3则是在DLSS 2的基础上新增了帧生成和NVIDIA Reflex技术,帧数最高可以做到翻倍的提升!而在实际体验中,我们也可以看到开启DLSS 3后几乎全部游戏均以4K120Hz高刷新率轻松跑起来!
Stable Diffusion是一款基于人工智能的图像生成工具,它能够根据用户提供的文本描述生成相应的图像。它的生成速度极其考验显卡的性能。
Stable Diffusion最大的特征,就是由于其开源的特性,可以在电脑本地上离线运行,生成速度快,且对硬件要求相对较低。这是AI绘画第一次能在可以在消费级显卡上运行,任何人都可以下载模型并生成自己的图像。另外,相比较于midjourney等封闭系统的AI绘图软件,Stable Diffusion强大的自由度(自定义、个性化)也受到很多业内人士的追捧。
下载安装包我选择的是秋叶大神开发的Stable Diffusion整合包,只需要把整合包下载到电脑上,就可以一键安装了。
解压完文件,点击绘世启动器,接下来就可以全自动安装了。安装过程中,需要先安装启动器所需要的环境,整个过程大概只需要几分钟即可完成。
安装完成之后,可以把绘世启动器发送到桌面快捷方式,这样下次直接点击快捷方式就可以一键启动Stable Diffusion了。
注意的是,如果有安装老版本的Stable Diffusion,可以选择版本管理,可以一键更新到最新版本。
点击一键启动,会自动在浏览器当中打开一个网页版的UI页面。这个页面就是我们的操作台了,接下来就可以在里面愉快地进行AI绘画了。
秋叶大神的整合包里包含了anyting-V5模型在内的几个基本的模型,但是没有最新的SDXL模型,因此我单独下载了SDXL模型,只需要存储到整合包文件夹的 models/Stable-diffusion
目录内,重新启动即可一键加载。
首先我们在拓展里面添加一个"Ranting8323 / sd-extension-system-info"的工具,该工具可以对显卡的AI性能进行基准测试。
其中14.52it/s、21.47it/s、22.52it/s就是索泰RTX 4070Ti SUPER Trinity OC月白这个显卡AI性能的得分,这个得分十分好。
另外,我们还可以去在线结果中查看别人的显卡AI得分,可以看到其他人同样的4090得分,也只有25.61it/s。
另外在去年年底的时候,也有玩家统计过各个显卡AI性能得分,仅供参考。从上图表来看,4070TiS的显卡AI性能已经超过了4080水准。
还值得一提的是,TensorRT,它可以对stable diffusion进行推理加速。
2023年10月18日Nvidia终于推出了官方的TensorRT插件Stable-Difusion-WebUl-TensorRT,该插件可以直接在 webui的 extension 中安装即可,默认支持cuda11.x。
TensorRT是可以在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以转化为TensorRT的格式,然后利用TensorRT推理引擎去运行我们这个模型,从而提升这个模型在英伟达GPU上运行的速度。速度提升的比例是比较可观的。
环境配置要求
要使用Stable-Difusion-WebUl-TensorRT插件加速,有几个重要的前提条件,GPU必须是NVIDIA的(俗称N卡),GPU的显存必须在8G以上,包含8G,GPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练,建议驱动更新到最新的版本。物理内存大于等于16G。
支持Stable-Diffusion1.5.2.1.SDXL,SDXL Turbo和 LCM,对干 SDXL和 SDXL Turbo,官方推荐使用具有12GB 或更多 VRAM 的GPU,以获得最佳性能。
操作步骤:
1、首先进入Stable-Difusion-WebUl-TensorRT插件的github页面,复制项目地址。
2、接下来启动WEBUI,无论你是通过 Github 安装还是秋叶安装,都会有extensions插件的标签,进入打开Extensions插件或者“拓展”选项,打开从网址安装,黏贴刚才的项目地址。
3、安装完成后点击应用更改并重启即可。
4、再次打开页面后就可以看到WebUI里会多了一个TensorRT 的页面。
5、如何使用?
首先咱们需要知道这个原理。
第一步,我们首先需要使用底模构建 TensorRT 模型,构建的过程是 TensorRT 的插件会自动的由底模输出 ONNX 模型,并构建一个以trt为后缀的 UNet 优化模型,在得到这个模型之后 我们就可以使用这个trt优化的 UNet 模型进行推理加速了。
而对于 LORA而言,则需要将使用的 LORA 模型也进行 TensorRT 模型的构建,再通过正常的 LORA的使用方法 TensorRT 的插件会自动将 LORA的 TensorRT 优化模型与底模的 UNet TensorRT 优化模型进行融合,来完成底模加上 LORA 的加速。
6、接下来选择想要导出的底模,你可以选择任意支持的底模,接下来我们打开 Preset 下拉框,这里会提供多个 Stable Diffusion 模型的预设推理参数,自己选择好就好。
7、接着前往设置→用户界面→快捷设置列表,添加 sd _unet→ 保存设置→ 重载 UI。
8、完成后WEBUI会多一个SD Unet的设置项。在这里可以选择使用TRT加速。
实际测试:
未启用 TensorRT加速之前,生成20批次,单批数量为1的图片,总耗时为39.5秒。
启用 TensorRT加速之后,生成20批次,单批数量为1的图片,总耗时为24秒。
不得不说,英伟达TensorRT加速实际效果达到了65%,可以说是非常强大,另外根据模型库不同以及参数设置差异,据说有的人可以到350%加速效果。
整体而言,索泰RTX 4070Ti SUPER Trinity OC月白显卡在使用的过程中给我极大的惊喜,它就像是一个全能选手,无论是颜值、游戏、办公还是AI绘图性能都超出了我的期待。这个产品可以说上我的年度最佳推荐列表,不论何时都值得我推荐给身边好友。