其实相对于ChatGPT,现在很多人花更多时间更沉迷的地方反而是AI绘图的部分,
不少人刚开始接触MidJourney,就被生成出来的图像品质和效果惊到。
最近尝试了一下Stable diffusion,直接发现新大陆,虽然一开始生图品质没有MidJourney好,但自由度直接打开,而且网络上很多开源模型可以组合,甚至到现在已经可以控制生图姿势,品质完全不输MidJourney。
先来说说AIGC是什么呢?
AIGC全名为 AI Generated Content,即人工智能生成内容,所以AI绘图,AI作曲,AI回答问题都算是AIGC。
P.S. 这篇文完全没有使用ChatGPT,全部自己撰写的。
先附上可爱的BIBO照片,第一张是相机拍的,后面2张都是Stable diffusion生成出来的,神韵真的超像,不得不说真的厉害。
第一张是相机拍的,二,三张都是SD生成的。
AI绘图元老 — GAN (生成对抗网络)
讲到AI生图不能不提GAN,GAN全名为 Generative Adversarial Network,Diffusion模型(现在主流软件使用的模型)出来之前,GAN一直是AIGC画图领域中主要研发的演算法架构,GAN最早的模型是在2014年提出来的,当时一提出来也是一窝蜂的人开始研究GAN,论文也是满天飞,简单来说GAN就是训练2个神经网路,一个当作鉴别器,一个当作生成器,拿生成器模型的图片让鉴别器模型去做辨别,互相对抗训练最后只拿生成器模型出来画图。
GAN的发展并没有不好,Nvidia发布的最新StyleGAN3也是非常厉害,但因为GAN的训练一直以来相对困难,而且目前只能以指定的领域做生图(例如你现在要生成人脸,你的GAN模型就只能生成人脸),训练难度也很高,比较知名的GAN实际应用应该就是DeepFake了。
StyleGAN3的 blend技术
AI绘图新时代 — Diffusion Model(扩散型模型)
GAN瓶颈了一阵子后,Diffusion Model(扩散型模型)就出现了,没错,也就是现在大家都在使用的应用都跟这个模型有关系,Stable diffusion & MidJourney & DALL·E 2 都是基于扩散型模型衍伸出来的。
其实Diffusion model的概念在2015就有论文提出来了,在2020年才开始应用在AI生成图片上面,而Diffusion Model的出现也慢慢的把AIGC的生图领域推向新的时代,他的做法是在原本的图片上输入噪点让图片变成随机噪点后,再利用神经网络逆向工程回图片。
为什么Diffusion Model会慢慢取代GAN,Diffusion model在训练模型上变得更加简单,和GAN比起来不用再训练2个模型,只需要训练生成器就好,降低了GAN训练的困难度,然后再搭配大型自然语言模型,就可以让生成出来的图片拥有很大的多样性,短短2年就让AIGC生图领域推到了最高点并且产品化,这边大致列一下重要产品应用的出现:
◆ 2021年1月 OpenAI 公布了DALL·E (没开源)并发布论文: Diffusion Models Beat GANs on Image Synthesis,DALL·E模型是GPT-3的多模态实现 (对,就是ChatGPT前身的那个GPT-3也是发明ChatGPT的公司)。
◆ 2021年10月开源的 Disco Diffusion 出现了,后面很多产品都是基于此技术开发的。
◆ 2022年4月 OpenAI 公布了 DALL·E 2(没开源),OpenAI称DALL-E 2是一个“可以从文本描述中生成原创、逼真的图像和艺术”的模型。
◆ 2022年7月 MidJourney进入公测(没开源),MidJourney为disco diffusion创办人之一参与的新项目。
◆ 2022年8月 Stability.ai 开源了 Stable Diffusion,正式进入AI绘图大时代。
接下来简单介绍一下目前最火的3款 AI绘图软件,如何开始以及自己使用上的优缺点跟心得,之后会再发教学。
DALL·E 2
先附上链接: https://openai.com/product/dall-e-2 (跟ChatGPT同个帐号登入就可以直接试用了)
DALL·E 2 为Open AI Release的最新的AI 画图软件,只要输入文本text,就会生成与文本高度相关的图片,新注册的会员会送50点,每个月会再给你14点,每一点可以针对”一次”text生成4张图。
输入”cute poodle dog with Eiffel tower in the background”出来的结果
DALL·E 2优缺点 (个人经验):
优点:
◆ 他有一个很棒的功能 – Outpainting,可以帮你把你原本的图像向外绘图,假设你要从512×512到1024×1024,它可以帮你把其他的像素都画出来,这功能大概是我觉得DALL·E 2唯一最有特色的优点,因为Text生成文本出来的图都远远不及其他2个软件。
DALL·E 2 Outpainting 功能
缺点:
◆ 就是文本生出来的图片真的不行,跟另外2个比较起来真的没法比…
◆ 自由度相对低。
MidJourney
先附上官网: https://www.midjourney.com/
MidJourney的使用必须经由Discord才能使用,所以要申请Discord帐号并加入MidJourney 服务器才能使用。
MidJourney 为MidJourney开发的文本生成图的模型,推测底层技术应该是基于Stable diffusion,MJ是由Leap Motion的联合创始人 David Holz 领导,也是disco diffusion创办人之一参与的新项目,只能使用discord机器人进行绘画(我猜这样做的方式是因为避免别人反向对接API,并且可以保护模型不外流),MidJourney持续在改进算法,目前已经到V4了,生图的品质真的没话说。
输入”cute poodle dog with Eiffel tower in the background”出来的结果
MidJourney 优缺点 (个人经验):
优点:
◆ 画出来的图品质真的很好,已经完全达到可商用级别,输入Prompt就可以生出一些很精美的图,而且不会破图,基本玩一次就会开始上瘾了,就算你不会太复杂的Prompt,你也可以直接把简单直观的文字输入进去,他也会给你一个很梦幻精致的图,只需要专心无脑把文字输入进去,这也是为什么MJ到现在还是比SD更大众的原因。
◆ 各种风格都可以生成,不论是真实、动漫、中国风、水墨各种风格都可以生成,而甚至可以叫他帮你设计各类风格海报还有UI … LOGO跟ICON都可以生成。
缺点:
◆ 很难控制生成出来的图片,假设你要做漫画的话,漫画主角必定会是同一个角色,但MJ很难去控制这点,即使你下的都一样的Prompt,但每次出来的角色还是会有差异,MJ在控制生成图片上相对比较弱一点也比较限制。
◆ MJ在生成脸部特征上会比较差一点,甚至在手脚的表现上也相对差一点,这应该是AI 绘图都会遇到的问题,不过在SD上已经有一些模型已经解决这个问题了,甚至SD上还有Inpainting功能可以做修图。
◆收费比较贵。
Stable Diffusion
这边我就先不教大家大家怎么使用了,因为SD使用需要一些硬件门槛(需要高GPU内存)以及比较复杂的安装流程,我之后会再做详细的使用教学以及一系列的技巧。
安装好的Stable diffusion web-ui,也是目前大家都在使用的介面。
Stable Diffusion 是由初创公司StabilityAI,CompVis与Runway合作开发的开源软件,可以在自己的电脑上部署运行 (MJ跟DALL·E 2都还在云端),现在这己经是一家独角兽公司了。
输入”photo of bibo dog with Eiffel tower in the background”出来的结果
Stable Diffusion 优缺点 (个人经验):
优点:
◆ 自由度高到爆炸,因为全开源的关系,各方大神开始开发各种工具插件,不论是fine-tune模型工具Dreambooth & LORA,只需要3~5张图片就可以fine-tune,可以依据自己的dataset进行模型训练让出图的时候生成相同物件跟风格,还有视频生成工具,最近还有突破性的ControlNet ,可以在出图的时候姿势、深度等,我相信AI绘图现在的限制,之后都会有大神开发出新的工具而去突破的。
◆ In-painting & Img2Img功能,可以在图片上画mask然后只改变画mask的地方,In-painting功能加上文本生图功能,基本上多做几次修图就可把破图的当方修好,手指少一跟的问题也可以用这种方式修改正常,SD能玩的地方真的很多。
缺点:
◆ 硬件限制,硬件设备至少要GPU 内存8G以上,显卡至少要10G以上,做一般的prompt 生图至少需要GPU 内存4G以上,当然也可以使用CPU做一般生图,但生图速度就会慢很多。
关于AI绘图的想法
AI绘图这件事一直充满着争议,有很多人说AI绘图会取代大部分插画和设计师,也有很多人说AI绘图不会,更有人说AI只是工具,不会工具的设计师会被淘汰,一直都有不同的说法也一直在争吵,关于这件事我无法做任何评论跟想法,毕竟我不是专业的设计师,不过目前来看,AI绘图确实已经开始被更多公司越来越重视了。
这是我的想法,以我自己使用的经验来说,像我原本不会设计的人,也可以开始可以利用这些AI工具来提升我的工作效率甚至做到我之前做不到的事情。
面对AIGC的浪潮,我们能做什么?
关注我,我将持续分享关于AICG相关知识和应用技术,为各位提供有价值的内容和思考。
查找更多前沿的AI工具,可以到AI工具酷:allin.aigcgeek.com 这里面分门别类汇集了500+国内外顶尖前沿的AI工具和产品,而且还在持续更新收录。
更多ChatGPT、Midjourney干货技巧,欢迎来同名公众号【AI飓风】
整理一下AI绘图的重大争议事件:
2022年8月,日本绘师在在社交平台上抵制Mimic平台未经授权使用画师素材,只开放1天后就关闭了,Mimic 是一个主打二次元绘图的平台,只要使用者上传15~30张图片就可以学习画风、特征画出相同图片。
2022年8月,美国人艾伦(Jason Allen)带着作品《太空歌剧院》(Théâtre D’opéra Spatial)参加科罗拉多州博览会(Colorado State Fair),抱走冠军与300美元奖金,此作品是Allen使用MidJourney生成出来的,画家们一致抗议,最后主办方承诺将在之后的评选中增设AI绘画相关的奖项,却没有把奖项重新颁发给某个人类画家。
2022年9月,NovelAI被发现其训练资料Danbooru为非法的图片搬运网站,许多图片多来自 pixiv 跟推特的手绘师二创、原创作画,其画出来的AI图还自带签名,手绘师们开始炸锅。
2022年11月开始,很多手绘师开始在知名艺术平台Artstation 抵制AI绘图,众多手绘师开始上传”NO TO AI GENERATED IMAGES”的图片到Artstation,最早是一位保加利亚艺术家“Alexander Nanitchkov”自发在A站上传了这样一张“抵制AI”的图,得到不少艺术家的支持和转发,结果A站删掉了这张照片,全球手绘师再度炸锅,经过一度又一度得抵制,最终以ArtStation的几个简单承诺而告终(会上线AI绘画专区)。
2023 年 1 月,三位艺术家:Sarah Andersen 、Kelly McKernan 和 Karla Ortiz 对Stability AI (Stable diffusion)、Midjourney 和DeviantArt提起版权侵权诉讼,声称这些公司通过在 50 亿张图像上训练 AI 工具侵犯了数百万艺术家的权利未经原作者同意从网络上删除。