AI绘画初识与主流工具介绍

作者：kevinzpk发布时间：2023-03-26

用语言画画这件事听起来就像霍格沃兹的魔法，但是它目前已经通过AI变成了现实。下面我们对AI作画的历史进行一个简略梳理。

AI绘画进步得如此之快，以至于人们害怕自己的职业迟早要被AI取代，我自己甚至都开始焦虑了。在去年8月，Stable diffusion的推特账号突然挂了，因为被大量艺术家举报，他们很愤怒也很害怕。Stable diffusion的创始人说：他们在嫉妒AI画的比他们好。

算法原理

整体说来，以下算法都是基于深度学习，其与传统机器学习有一些区别：

即有两点：

人工提取特征——自动提取特征

深度学习最特别最厉害的地方就是能够自己学习特征提取，机器的超强算力可以解决很多人工无法解决的问题。自动化后，学习能力更强，适应性也更强。

人工判断生成结果的好坏——自动判断和优化

训练集需要大量的人工标注数据，这个过程是成本很高且效率很低的。而人工判断生成结果的好坏也是如此，有成本高和效率低的问题。

AI 绘画平台基于一些目前非常火热的 AI 绘画算法，就是用不同的算法策略实现以上两点，如下：

1）GAN生成对抗网络

非常流行的AI绘画算法，但目前看来算是一种发展较难的弯路。目前最大使用方向是视频换脸技术上，比如deepface这类。

它包含两个网络：生成器和判别器。生成器生成图像，而判别器则评估图像的真实性。

两个网络在训练过程中相互竞争，直到生成器可以生成与真实图像相同的图像为止。

最终我们得到了一个效果非常好的“生成器 G”，我们就可以用它来生成我们想要的图片了。

若对GAN技术有兴趣，想深入了解的，可以参考下面的文章：https://zhuanlan.zhihu.com/p/402819206

2）风格迁移技术

风格迁移是一种将一个图像的艺术风格应用到另一个图像上的算法。它基于卷积神经网络（CNN），可以将输入图像分解为不同的层和通道，然后将每一层和通道的特征图与目标风格的特征图进行比较。最近，风格迁移已经被用于生成独特的艺术作品，包括与现实世界不同的 3D 场景、动漫图像等。

这项技术曾是我09年本科毕业论文的主要研究内容，当时算是非常前沿的技术了，一直以为会是以后自动P图的主流技术。不过当时我的程序只能实现单一风格统一迁移，无法进行物体识别局部处理。现在技术确实是变化太快了！

有兴趣的可以参考以下文章内容深入学习下：

https://zhuanlan.zhihu.com/p/26746283

从纹理到图片风格其实只差两步。第一步也是比较神奇的，是 Gatys 发现纹理能够描述一个图像的风格。严格来说纹理只是图片风格的一部分，但是不仔细研究纹理和风格之间的区别的话，乍一看给人感觉还真差不多。第二步是如何只提取图片内容而不包括图片风格。这两点就是他的第二篇论文做的事情：Gatys 又偷了个懒，把物体识别模型再拿出来用了一遍，这次不拿 Gramian 算统计模型了，直接把局部特征看做近似的图片内容，这样就得到了一个把图片内容和图片风格（说白了就是纹理）分开的系统，剩下的就是把一个图片的内容和另一个图片的风格合起来。合起来的方法用的正是之前提到的让神经网络“梦到”狗的方法，也就是研究员们玩出来的 Deep Dream，找到能让合适的特征提取神经元被激活的图片即可。

3）自适应生成

自适应生成是一种使用对抗性损失和重建损失来训练生成器的算法，它可以生成新的数据样本，例如图像、文本、音频等等。它的目标是通过学习输入数据的特征分布，生成与输入数据类似的新数据。自适应生成算法的基本思想是建立一个生成模型，该模型可以学习输入数据的概率分布，并在学习过程中调整模型参数以最大限度地减少生成数据与真实数据之间的差异。这样，模型就能够生成与输入数据类似的新数据

可以通过以下链接深入了解：https://zhuanlan.zhihu.com/p/28484031?hmsr=joyk.com&utm_source=joyk.com&utm_medium=referral

从算法上来讲，逻辑很简单，总共会有不同的几种错误类型，和对应的课程，只要学生在作文里出现某种错误，就自动推这类课程。最著名的自适应生成算法是生成对抗网络（GAN）。它可以学习艺术家的风格和技巧，然后生成新的艺术作品。自适应生成可以用于生成逼真的肖像、风景画和动漫角色等。

4）DeepDream算法

通过将深度神经网络的激活函数反向传播，生成幻觉般的图像。此算法可以生成下面的图片：

首先，在卷积神经网络（简称 CNN）的研究中，大家并不满足于精准的图片分类，还想知道网络中各层乃至各个神经元都学习到了什么东西。如果能将每一个神经元的内容可视化出来，将是十分有用的。

那么如何对 CNN 中的某一神经元进行可视化呢？

Deep Dream 的想法就是：学习出一张图片，使得这一神经元能够产生最大激活。从数值上看，就是使得这一神经元的输出值最大。

更一般的，不仅可以最大化某一个神经元的输出，还可以最大化一组神经元的输出，或者某一层的总输出。这样得到的是多个神经元的混合可视化结果。因此，Deep Dream 是基于训练好的卷积神经网络进行图片的生成，在生成图片时，神经网络是冻结的，也就是网络的权重不再更新，只更新输入图片。

这里需要个分割线，因为主角来了

爆发式发展

可以说Diffusion Models/扩散算法的出现，是AI绘画这几年爆发式发展的主要原因。

当前主要有四大生成模型：生成对抗模型、变微分自动编码器、流模型以及扩散模型。扩散模型（diffusion models）是当前深度生成模型中新SOTA。扩散模型在图片生成任务中超越了原SOTA：GAN，并且在诸多应用领域都有出色的表现，如计算机视觉，NLP、波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。此外，扩散模型与其他研究领域有着密切的联系，如稳健学习、表示学习、强化学习。

可以通过以下文章深入了解下Diffusion Model: https://zhuanlan.zhihu.com/p/572770333

所谓扩散算法，是指先将一幅画面逐步加入噪点，一直到整个画面都变成白噪声。记录这个过程，然后逆转过来给AI学习。

AI那里看到的是一个全是噪点的画面是如何一点点变清晰直到变成一幅画的，AI通过学习这个逐步去噪点的过程来学会作画。这个算法出来之后效果非常好，比以前的AI绘画效果要好的多。突破了实用化的临界点。

早在 2010 年 Google 就开始研究 AI 生成一些概念绘画。受限于算力/模型能力的支持，AI 绘画早期能够落地的应用始终在风格迁移、图片修复等辅助编辑方面。而 2022 年 AI 绘画的大规模爆发，我认为离不开如下几个关键技术的支持：

超大规模、跨模态的预训练语言模型的成熟。尽管 2022 年之前，AI 绘画一直存在，但并不能低成本地根据用户的提示生成用户想要的场景。模型在特定的数据集合上进行训练，生成的图像更多地针对该特定数据集合的一种「平均」体现，相信大家对「改变图中人物的年龄」「生成某个人群（如亚洲女性）的平均人脸」这种研究还有记忆。而类似 CLIP 等跨模态语言模型的提出和开放，则打通了「语言-视觉」中的桥梁，让「输入文字得到图片」的模式成为可能；
扩散模型的提出及效率的迅速提升。在扩散模型之前主流生成图片的方法是 VAE 和 GAN，但各有缺点，例如 GAN 的训练不稳定、生成图像的质量很难保证。diffusion 模型则相对简单，其效果也较为突出。尤其是 2022 年，基于潜在空间扩散（latent diffsion model，LDM）的模型的提出，让图像生成的效率大大提高，资源占用降低；
开源社区的支持。2021 年初，OpenAI 释出了业界第一个效果得到公认的文-图跨模态模型 CLIP，于是在 2021 年，跨模态的信息检索和匹配就成为业界应用的热点；2022 年初，OpenAI 由发表了基于 CLIP 的文-图生成模型 unCLIP，通过 CLIP + GAN 的方式生成图像，尽管生成质量还不尽如人意，但引发了较为热烈的讨论；2022 年 8 月，StabilityAI 的 stable diffusion 的发布则让图-文生成变的更加普惠：开放了模型的权重文件，并且能够在消费级的显卡上生成精细的图像。

主流AI绘画产品

Midjourney

网址：https://www.midjourney.com/

需要翻墙；不用安装，向机器人输入关键词，就给你生成图片；允许每月免费使用，有很大的时长或者次数限制，仅能看部分作品；每月大概需要付费 30 美元，订阅它的人非常多；简单的平面广告插画，类似 ppt 里的 slide 的小图片，可以批量生成，质量很高，稍微改改就能商用。这部分的从业者更可能受到 AI 绘画的冲击。

它综合能力全面，图像生成速度快，而且选择多样

Midjourney并非是一个独立的应用，它是搭在了通讯软件Discord上，在discord中，向Midjourney机器人发送符合格式的文字指令，它便会向你回复AI绘画结果。

DALL•E 2

网址：https://openai.com/dall-e-2/

「DALL-E 2」，名称合成自超现实主义艺术家“萨尔瓦多·达利(Salvador Dalí)”和《机器人总动员》的英文名“WALL-E”。 DALL-E 2诞生的时间也很短暂，2022年4月份推出，它的前身DALL·E也诞生才一年半左右。只要输入一些描绘你想要的画作的关键词，几秒钟就可以给你生成一幅。

它生成速度快，文生图方式，图像风格写实，操作简单，完成度高，而且可以根据一张给定的图片生成许多与之相关的画面，其编辑功能已经可以在生成或上传的图像中进行更改。目前免费，需要科学上网。有时候容易断线无反馈！

Disco Diffusion

网址：https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
Disco Diffusion 是在去年 2 月初开始流行的一个 AI 图像生成程序，它可以根据描述场景的关键词渲染出对应的图像，可以在 Google Drive 直接运行，也可以部署到本地运行。目前Github上标星6k+，开源参与没有Stable diffusion火热

Stable Diffusion

“Stable Diffusion”是开源图像合成模型，可以让任何拥有一台 PC 和一个像样 GPU 的人，将文本转化为图像。这个 AI 作画工具几乎可以模仿任何视觉风格，如果你输入一个描述性短语，图像就会像魔术一样出现在你的屏幕上。

因为开源的项目，加上参与者众多，其迭代速度飞快，国内攻略较多，且有在学多的支持插件，导致SD的生态链非常好，是目前自由度最高的AI绘画工具。我们可以使用对应风格的照片训练AI模型，然后进行再创作，几乎没有上限，也许限制它创作发展的只能是你的硬盘空间和显卡。预留至少20G的安装空间。

NovelAI

网址：http://novelai.net/

《novelai》是个非常好用的绘画网站，可以方便快捷的画出精美好看的图画，相对于一些通用的AI绘画生成器来说，novelai在二次元图上更加的准确。

实际上准确说，novelai的初衷是为了让小说家在平台上使用AI创作内容，然后给内容配上插画。其使用的基础就是stable diffusion，只是相比SD的开源，novelAI采用的是线上平台方式，不需要自行部署，相对容易上手。因此现在国内大部分将novelAI和stable diffusion并称混用！这里我们只按novelai线上部分来说！

文心一格

网址：https://yige.baidu.com/

本月最火的一个工具了吧，因为实在是太瞎扯了，从技术的角度看，更像是stable diffusion这类开源项目外面再加一层中翻英的壳。当然不能否认百度在多模态语言模型方面的努力，希望能越来越好吧！

不过目前我们说的文心一格只说其出图功能，也就是上线许久的飞浆平台，免费，出图效果稳定，可支出出大图，类似novelAI形式

无界AI

网址：https://www.wujieai.com/

目前国内热度最高的AI绘画工具，其基础是SD，所以里面可以提供多种风格模型选择，同时也提供对midjourney风格绘画的学习整合，满足了多维度的需要。支持中文关键词，并提供广场，方便快速使用他人美图咒语。使用积分形式生成图片，积分可以靠分享、充值等方式获取。

最近审核变严，擦边的图都不能出了，留意哦

Draft

网址:https://draft.art

这款国产Ai绘画产品中英文都支持，让大家轻松。创作使用非常简单，移动端/pc端输入网址即可使用，无需下载。

生成速度也相当不错，快的话，只要十秒就能出图。另外，社区提供瀑布流素材，可以带来灵感创意。