在过去的几个月中,您很可能已在网上的社交媒体帖子、新闻文章和视频中见识到人工智能及其所能生成的内容。在众多人工智能产品中,OpenAI公司推出的ChatGPT备受青睐。其聊天风格的界面允许用户与人工智能模型进行交互,提出问题,向其发出指令,甚至要求其编写代码、段落或整篇文章!除了像ChatGPT这样的文本模型外,还有诸多视觉形式的AI模型正不断涌现。这些模型,例如MidJourney、Stable Diffusion、DALL-E等,都能根据特定的提示生成图像。人们也可以向这些模型发出指令,要求其创建数字艺术作品。
Prompt:
Space battleship, causing objects to disintegrate into atomic particles. cinematic shot + dynamic composition, incredibly detailed, sharpen, details + intricate detail + professional lighting, film lighting + 35mm + anamorphic + lightroom + cinematography + bokeh + lens flare + film grain + HDR10 + 8K + Roger Deakins, ((cinematic)), perfect composition, hyperrealistic, super detailed, 8k, high quality, trending art, trending on artstation, sharp focus, studio photo, intricate details, highly detailed
Negative Prompt:
(3d, cartoon, anime, sketches), (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), bad anatomy, out of view, cut off, ugly, deformed, mutated, ((young)), EasyNegative, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans,extra fingers,fewer fingers, (ugly eyes, deformed iris, deformed pupils, fused lips and teeth:1.2), (un-detailed skin, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.2), text, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions
Steps:
30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 189104945, Size: 1024x1024, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, Clip skip: 2, Version: v1.5.1
借助上述模型,我们得到了以下输出结果。
毋庸置疑,这种强大的工具业已引起了全行业的剧变。尽管就艺术、图形、撰写和创造力而言,目前尚无任何人工智能模型能够完全模拟人类,然而许多职业已开始因其而受到波及。不过,人工智能所生成的内容一般仅作为生成通用内容(如文本、代码片段、图像或图形)的辅助手段,因为在不同场景下其易出现错误。事实上,谷歌的Bard AI聊天机器人在首次演示时便出现了实质性的错误!不过,随时间的推移,它们的实用性将会持续提升。目前,我们已经见证了诸多更新的AI模型的诞生,这些模型多数是在以往的版本基础上进行的改进。
VRAM和AI模型:你需要多少?
当前,一些人工智能工具因其开源特性而备受瞩目——授权用户、企业及组织可在其硬件上进行本地化部署,无需担忧任何隐私或安全方面的顾虑。
尽管大型企业具备自主托管人工智能模型所需的基础设施和资金,但个人和专业人士在利用人工智能时可能会面临困难。这些困难主要来自于AI模型在现代硬件上可能运行缓慢甚至无法运行,其中一个重要原因是这些模型对VRAM的需求。
Stable Diffusion XL最低要求
Stability AI公司最近发布了一个名为Stable Diffusion XL(SDXL)的模型,这个模型是迄今为止该公司所称的“最先进的”版本之一。
目前,该技术已具备以较短提示生成逼真度更高的人脸、清晰易读的文本及美观程度更高的艺术品的潜能。然而,这些性能增强功能亦增加了相应的硬件成本,特别是对VRAM的需求和GPU性能的要求。所以,在家用电脑上享受SDXL的改进需要满足哪些要求呢?首先,Stability AI推荐我们使用Nvidia图形卡,因此,我们将使用当前和前代产品,以更好地理解它们的性能。考虑到Stability AI在发布的新闻稿中明确要求显卡需要有至少8GB的显存,但我们希望研究更高显存容量所带来的效果。仅仅达到最低要求(或稍微超过一点)会对性能产生很大影响,还是更强大的GPU可以抵消缺乏VRAM带来的影响?针对这一问题,我们已安排实验室在不同硬件上进行测试,包括现有及以往的设备。这些所得数据均应有助于您在购买下一款显卡时做出更明智的决策。
适用于GeForce显卡的SDXL GPU基准测试
在我们的实验中,我们将采用一块RTX 4060 Ti 16 GB显卡、一块RTX 3080 10 GB显卡以及一块RTX 3060 12 GB显卡作为测试对象。首先,我们将从使用默认参数进行简单的艺术合成任务,以便让这些GPU得到充分的性能测试。
对于通常关注游戏基准测试的玩家而言,所得的结果可能会让他们感到惊讶。RTX 4060 Ti 16GB配置了16GB的VRAM缓冲区,以优异的16秒成绩轻松完成了任务,表现超越了其他同类产品。紧随其后的是RTX 3060 12GB,由于其12GB的VRAM配置,其完成时间稍长,为27.2秒。尽管成绩并非最佳,但仍然在相当不错的范畴内。遗憾的是,RTX 3080由于显存容量的限制,其性能在某些情况下可能受到影响。据测试,其以较为缓慢的速度完成任务,时间为65.1秒,其性能表现并不尽如人意。因此,我们可以看到,这一代的RTX 4060 Ti 16GB GPU在图像生成时间上相较于上代高端的RTX 3080快了约4倍。
SDXL 基准测试:1024x1024+LORA
我们可以在下一次测试中适当增加挑战性,采用LoRA进行尝试。敬请期待。
在使用LoRA或低秩适应技术对特定艺术风格或字符进行稳定扩散模型的微调时,,这将会增加VRAM的负担。因此,为了评估“参赛者”的表现,需要仔细观察他们在本次测试中的成果。
我们通过运用LoRA来制作一件“Cybergirl”艺术品,以此来考察拥有有限VRAM的显卡与拥有更大VRAM的显卡在性能上究竟存在多少差距。实验结果显示,RTX 3080轻易地被拥有更多内存的40系列显卡所超越。RTX 4060 Ti 16GB再次展示出卓越的性能,仅耗费17秒就完成了图像生成,相对比之下,RTX 3080的表现,犹如蜗牛般的缓慢,其生成时长长达98.8秒。
SDXL 基准测试:1024x1024+LoRA+ControlNet
好的,接下来我们将使用ControlNet为40系显卡添加一些额外的条件以展现其更强大的能力。
首先,ControlNet是一种神经网络模型,其作用在于对Stable Diffusion的输出进行更精细的控制和微调。具体而言,ControlNet通过在输出中添加更多特定条件,使Stable Diffusion能够更好地理解并满足用户对设计的需求。因此,使用ControlNet可以更加精准地指导生成结果,使其与用户提供的清晰参考更加贴合。请转到ControlNet的GitHub页面以获取更多详细信息和关于如何设置它的文档!
竞争非常激烈,RTX 3080几乎已经追上了RTX 4060 TI 16 GB的性能,并最终成功超越了RTX 3060 12 GB。不过,尽管计算量需求巨大,RTX 4060 Ti 16GB仍然在微弱优势下取得了最终胜利。
SDXL 基准测试:1024x1024+Upscaling
现在,我们尝试加入一些超分辨率技术。让我们看看,这款40系显卡能否跟上RTX 3080的强大超分辨率能力?在这项测试中,我们将使用Real Enhanced Super-Resolution Generative Adversarial Networks技术,为易于理解,后续缩写为R-ESRGAN 4x+。
在对一张1024x1024图像进行2倍放大时,RTX 4060 Ti 16 GB所花费的时间上超越了RTX 3080和RTX 3060 12 GB。它仅用了5.5秒就成功完成了任务,其生成图像的速度比RTX 3080 10 GB快出了36%。
在进行R-ESRGAN 4x+ upscaler的4倍放大时,RTX 4060 Ti 16 GB与竞品之间的差距较之前有所缩小。测试结果显示,RTX 4060 Ti 16 GB完成这项任务时的性能较RTX 3080 10 GB快23%,而RTX 3060 12 GB已能与RTX 3080的性能相提并论。尽管如此,RTX 4060 Ti 16 GB依然保持领先地位。根据几次测试结果可以看出,缩放工作负载越密集,RTX 3080就越接近40系列显卡的竞争水平。
Stable Diffusion XL最具性价比的图形卡
在处理诸如Stable Diffusion XL这样的AI模型时,拥有足够的VRAM显得尤为关键。从之前的测试数据中,我们可以清晰地发现,RTX 4060 Ti 16GB是目前市场上最适合AI图像生成的显卡。
用户可前往Stability AI的GitHub页面获取更多关于SDXL以及Stability AI其他扩散模型的信息。