浅谈AIGC爆炸的时代—AI绘图 Stable Diffusion、MidJourney、DALL·E 2

作者：发抖网发布时间：2023-04-27

其实相对于ChatGPT，现在很多人花更多时间更沉迷的地方反而是AI绘图的部分，

不少人刚开始接触MidJourney，就被生成出来的图像品质和效果惊到。

最近尝试了一下Stable diffusion，直接发现新大陆，虽然一开始生图品质没有MidJourney好，但自由度直接打开，而且网络上很多开源模型可以组合，甚至到现在已经可以控制生图姿势，品质完全不输MidJourney。

先来说说AIGC是什么呢?

AIGC全名为 AI Generated Content，即人工智能生成内容，所以AI绘图，AI作曲，AI回答问题都算是AIGC。

P.S. 这篇文完全没有使用ChatGPT，全部自己撰写的。

先附上可爱的BIBO照片，第一张是相机拍的，后面2张都是Stable diffusion生成出来的，神韵真的超像，不得不说真的厉害。

第一张是相机拍的，二，三张都是SD生成的。

AI绘图元老 — GAN (生成对抗网络)

讲到AI生图不能不提GAN，GAN全名为 Generative Adversarial Network，Diffusion模型(现在主流软件使用的模型)出来之前，GAN一直是AIGC画图领域中主要研发的演算法架构，GAN最早的模型是在2014年提出来的，当时一提出来也是一窝蜂的人开始研究GAN，论文也是满天飞，简单来说GAN就是训练2个神经网路，一个当作鉴别器，一个当作生成器，拿生成器模型的图片让鉴别器模型去做辨别，互相对抗训练最后只拿生成器模型出来画图。

GAN的发展并没有不好，Nvidia发布的最新StyleGAN3也是非常厉害，但因为GAN的训练一直以来相对困难，而且目前只能以指定的领域做生图(例如你现在要生成人脸，你的GAN模型就只能生成人脸)，训练难度也很高，比较知名的GAN实际应用应该就是DeepFake了。

StyleGAN3的 blend技术

AI绘图新时代 — Diffusion Model(扩散型模型)

GAN瓶颈了一阵子后，Diffusion Model(扩散型模型)就出现了，没错，也就是现在大家都在使用的应用都跟这个模型有关系，Stable diffusion & MidJourney & DALL·E 2 都是基于扩散型模型衍伸出来的。

其实Diffusion model的概念在2015就有论文提出来了，在2020年才开始应用在AI生成图片上面，而Diffusion Model的出现也慢慢的把AIGC的生图领域推向新的时代，他的做法是在原本的图片上输入噪点让图片变成随机噪点后，再利用神经网络逆向工程回图片。

为什么Diffusion Model会慢慢取代GAN，Diffusion model在训练模型上变得更加简单，和GAN比起来不用再训练2个模型，只需要训练生成器就好，降低了GAN训练的困难度，然后再搭配大型自然语言模型，就可以让生成出来的图片拥有很大的多样性，短短2年就让AIGC生图领域推到了最高点并且产品化，这边大致列一下重要产品应用的出现:

◆ 2021年1月 OpenAI 公布了DALL·E (没开源)并发布论文: Diffusion Models Beat GANs on Image Synthesis，DALL·E模型是GPT-3的多模态实现 (对，就是ChatGPT前身的那个GPT-3也是发明ChatGPT的公司)。

◆ 2021年10月开源的 Disco Diffusion 出现了，后面很多产品都是基于此技术开发的。

◆ 2022年4月 OpenAI 公布了 DALL·E 2(没开源)，OpenAI称DALL-E 2是一个“可以从文本描述中生成原创、逼真的图像和艺术”的模型。

◆ 2022年7月 MidJourney进入公测(没开源)，MidJourney为disco diffusion创办人之一参与的新项目。

◆ 2022年8月 Stability.ai 开源了 Stable Diffusion，正式进入AI绘图大时代。

接下来简单介绍一下目前最火的3款 AI绘图软件，如何开始以及自己使用上的优缺点跟心得，之后会再发教学。

DALL·E 2

OpenAI的 AI画图产品，也许现在不好，但我未来非常看好，毕竟微软投资了那么多的钱。

先附上链接: https://openai.com/product/dall-e-2 (跟ChatGPT同个帐号登入就可以直接试用了)

DALL·E 2 为Open AI Release的最新的AI 画图软件，只要输入文本text，就会生成与文本高度相关的图片，新注册的会员会送50点，每个月会再给你14点，每一点可以针对”一次”text生成4张图。

输入”cute poodle dog with Eiffel tower in the background”出来的结果

DALL·E 2优缺点 (个人经验):

优点:

◆ 他有一个很棒的功能 – Outpainting，可以帮你把你原本的图像向外绘图，假设你要从512×512到1024×1024，它可以帮你把其他的像素都画出来，这功能大概是我觉得DALL·E 2唯一最有特色的优点，因为Text生成文本出来的图都远远不及其他2个软件。

DALL·E 2 Outpainting 功能

缺点:

◆ 就是文本生出来的图片真的不行，跟另外2个比较起来真的没法比…

◆ 自由度相对低。

MidJourney

先附上官网: https://www.midjourney.com/

MidJourney的使用必须经由Discord才能使用，所以要申请Discord帐号并加入MidJourney 服务器才能使用。

MidJourney 为MidJourney开发的文本生成图的模型，推测底层技术应该是基于Stable diffusion，MJ是由Leap Motion的联合创始人 David Holz 领导，也是disco diffusion创办人之一参与的新项目，只能使用discord机器人进行绘画(我猜这样做的方式是因为避免别人反向对接API，并且可以保护模型不外流)，MidJourney持续在改进算法，目前已经到V4了，生图的品质真的没话说。

输入”cute poodle dog with Eiffel tower in the background”出来的结果

MidJourney 优缺点 (个人经验):

优点:

◆ 画出来的图品质真的很好，已经完全达到可商用级别，输入Prompt就可以生出一些很精美的图，而且不会破图，基本玩一次就会开始上瘾了，就算你不会太复杂的Prompt，你也可以直接把简单直观的文字输入进去，他也会给你一个很梦幻精致的图，只需要专心无脑把文字输入进去，这也是为什么MJ到现在还是比SD更大众的原因。

◆ 各种风格都可以生成，不论是真实、动漫、中国风、水墨各种风格都可以生成，而甚至可以叫他帮你设计各类风格海报还有UI … LOGO跟ICON都可以生成。

缺点:

◆ 很难控制生成出来的图片，假设你要做漫画的话，漫画主角必定会是同一个角色，但MJ很难去控制这点，即使你下的都一样的Prompt，但每次出来的角色还是会有差异，MJ在控制生成图片上相对比较弱一点也比较限制。

◆ MJ在生成脸部特征上会比较差一点，甚至在手脚的表现上也相对差一点，这应该是AI 绘图都会遇到的问题，不过在SD上已经有一些模型已经解决这个问题了，甚至SD上还有Inpainting功能可以做修图。

◆收费比较贵。

Stable Diffusion

自由自在无止尽没极限的AI绘图工具，AI绘图界的塞尔达传说:旷野之息？

这边我就先不教大家大家怎么使用了，因为SD使用需要一些硬件门槛(需要高GPU内存)以及比较复杂的安装流程，我之后会再做详细的使用教学以及一系列的技巧。

安装好的Stable diffusion web-ui，也是目前大家都在使用的介面。

Stable Diffusion 是由初创公司StabilityAI，CompVis与Runway合作开发的开源软件，可以在自己的电脑上部署运行 (MJ跟DALL·E 2都还在云端)，现在这己经是一家独角兽公司了。

输入”photo of bibo dog with Eiffel tower in the background”出来的结果

Stable Diffusion 优缺点 (个人经验):

优点:

◆ 自由度高到爆炸，因为全开源的关系，各方大神开始开发各种工具插件，不论是fine-tune模型工具Dreambooth & LORA，只需要3~5张图片就可以fine-tune，可以依据自己的dataset进行模型训练让出图的时候生成相同物件跟风格，还有视频生成工具，最近还有突破性的ControlNet ，可以在出图的时候姿势、深度等，我相信AI绘图现在的限制，之后都会有大神开发出新的工具而去突破的。

◆ In-painting & Img2Img功能，可以在图片上画mask然后只改变画mask的地方，In-painting功能加上文本生图功能，基本上多做几次修图就可把破图的当方修好，手指少一跟的问题也可以用这种方式修改正常，SD能玩的地方真的很多。

缺点:

◆ 硬件限制，硬件设备至少要GPU 内存8G以上，显卡至少要10G以上，做一般的prompt 生图至少需要GPU 内存4G以上，当然也可以使用CPU做一般生图，但生图速度就会慢很多。

关于AI绘图的想法

AI绘图这件事一直充满着争议，有很多人说AI绘图会取代大部分插画和设计师，也有很多人说AI绘图不会，更有人说AI只是工具，不会工具的设计师会被淘汰，一直都有不同的说法也一直在争吵，关于这件事我无法做任何评论跟想法，毕竟我不是专业的设计师，不过目前来看，AI绘图确实已经开始被更多公司越来越重视了。

但是不管要不要抵制都绝对不能无视！！！

这是我的想法，以我自己使用的经验来说，像我原本不会设计的人，也可以开始可以利用这些AI工具来提升我的工作效率甚至做到我之前做不到的事情。

面对AIGC的浪潮，我们能做什么？

关注我，我将持续分享关于AICG相关知识和应用技术，为各位提供有价值的内容和思考。

查找更多前沿的AI工具，可以到AI工具酷：allin.aigcgeek.com 这里面分门别类汇集了500+国内外顶尖前沿的AI工具和产品，而且还在持续更新收录。

更多ChatGPT、Midjourney干货技巧，欢迎来同名公众号【AI飓风】

整理一下AI绘图的重大争议事件：

2022年8月，日本绘师在在社交平台上抵制Mimic平台未经授权使用画师素材，只开放1天后就关闭了，Mimic 是一个主打二次元绘图的平台，只要使用者上传15~30张图片就可以学习画风、特征画出相同图片。

2022年8月，美国人艾伦（Jason Allen）带着作品《太空歌剧院》（Théâtre D’opéra Spatial）参加科罗拉多州博览会（Colorado State Fair），抱走冠军与300美元奖金，此作品是Allen使用MidJourney生成出来的，画家们一致抗议，最后主办方承诺将在之后的评选中增设AI绘画相关的奖项，却没有把奖项重新颁发给某个人类画家。

2022年9月，NovelAI被发现其训练资料Danbooru为非法的图片搬运网站，许多图片多来自 pixiv 跟推特的手绘师二创、原创作画，其画出来的AI图还自带签名，手绘师们开始炸锅。

2022年11月开始，很多手绘师开始在知名艺术平台Artstation 抵制AI绘图，众多手绘师开始上传”NO TO AI GENERATED IMAGES”的图片到Artstation，最早是一位保加利亚艺术家“Alexander Nanitchkov”自发在A站上传了这样一张“抵制AI”的图，得到不少艺术家的支持和转发，结果A站删掉了这张照片，全球手绘师再度炸锅，经过一度又一度得抵制，最终以ArtStation的几个简单承诺而告终（会上线AI绘画专区）。

2023 年 1 月，三位艺术家：Sarah Andersen 、Kelly McKernan 和 Karla Ortiz 对Stability AI (Stable diffusion)、Midjourney 和DeviantArt提起版权侵权诉讼，声称这些公司通过在 50 亿张图像上训练 AI 工具侵犯了数百万艺术家的权利未经原作者同意从网络上删除。

浅谈AIGC爆炸的时代—AI绘图 Stable Diffusion、MidJourney、DALL·E 2

推荐体验

相关资讯

[浅谈AIGC爆炸的时代] — ChatGPT

DALL·E、Midjourney、Stable Diffusion选哪个更适合自己？问ChatGPT给出的解答

Midjourney, Dall-E, Stable Diffusion-人工智能艺术大师班

从DDPM到DALL-E2和Stable Diffusion——扩散模型相关论文阅读（2）

AI绘画软件PK：Midjourney、Disco Diffusion、DALL·E谁更强？

近期资讯

四川超迪电器取得夹持式机械手专利，可防止夹持物品掉落

宁波璟辰智能装备取得一种可稳定夹取不同长度棒材的夹持机构专利，解决棒材抓取脱落问题

苏州川吉自动化取得带真空检测的机械手夹爪专利，避免真空泄露产品掉落风险

南天数金申请一种工业控制指令数字化处理与工业互联网平台协同方法专利，提高了指令传输和处理的准确性，减少了干扰

西门子股份公司申请控制卷绕机专利，可对卷绕机运行给出异常标志

湖北能源集团鄂州发电申请基于人工智能的火电厂DCS性能分析与优化系统专利，降低了能耗和成本

惠州市可道人工智能科技取得可逆出风真空吸附装置专利，有效解决自动化生产中物料脱落问题

深圳市龙方自动化科技取得机械手夹爪快换装置专利，确保生产过程连续稳定

山推工程机械取得一种变矩器泵轮夹具专利，能够减小机械手末端的长度

江苏安东智能装备制造申请基于视觉识别和 5G 通信的自动化参数调整专利，提升制造精度

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响