Stable Diffusion 是一种由文本到图像的生成式模型, 自2022年作为开源项目被发布在 Github 上以来, 受到了广泛的应用和飞速的发展. 在 Stable Diffusion 的生成过程中, GPU 带来了明显的加速效果.
本次测试针对 Stable Diffusion 软件在不同的GPU上的加速效果进行了测试. 我们利用Stable Diffusion 的文本生成图像的功能, 利用统一的提示词, 使用相同的工具, 保证了除 GPU 型号之外的硬件以及软件的一致性.
本次实验中采用的硬件规格如下 (Tab 1):
测试过程中, 生成10个批次的512*512规格的图像, 每个批次生成一张图片, 与10个批次每个批次6张图片生成的结果比较如下 (Bar 1):
从上图 (Bar 1), 可以看出性能最好的是NVIDIA RTX 6000 Ada, 比上一代的RTX 6000 在图片生成的速度上快了 2.2 倍, 比 RTX 2080 Ti 快了将近三倍. 第二性能比较好的shuyu RTX 4090, 但是在大批次的数据生成下, 4090 因带宽较高, 性能比RTX 6000 Ada 稍好一些. 第三是 RTX A6000 但是也达到了 18.72的速度.
比较直观一点的感受可以从下表中的图片生成时间来进行比较:
下图是对生成1024*1024图像, 在两个不同的生成规模下 (10 Batch 1 Size 和 2 Batch 5 Size) 图片的不同生成速度, 见 Bar 2:
当生成图片的规模上来之后, 发现企业级卡的性能表现更好, 在2 Batch 5 Size 的情况下, A30 可以达到 2.34 it/s. 其他个人级别的卡在性能上也出现了差异, RTX 8000 和 RTX 2080 Ti的速度优于 RTX 4090 和 RTX 6000 Ada.
我们还在服务器上用企业级卡做了对比测试, 结果如下:
A800 的性能最好, 是普通T4 的 8 倍, 是 A40, A30 将近两倍的速度.
结论
由上述实验结果可见, 如果只需要小批量生成数据, A6000 Ada 和 RTX 4090 可以提供较快的速度; 但是当生成需求或者数据量变大的时候, 内存更大且带宽更高的企业级卡更满足要求.
上海信弘智能科技有限公司(ZENTEK)是 NVIDIA 核心合作伙伴。我们提供 NVIDIA 最新的软硬件产品与解决方案,为人工智能,高性能计算,数字孪生等领域的客户需求提供专业的服务。