从AI绘图说起--科技进步与文艺表达

作者：孤坟killr发布时间：2023-06-26

正如衡量经济发展水平的指标应该是社会上的大多数人生活水平，而非社会首富的财富积累。衡量艺术文化水平的指标应该是社会上大多数人的艺术素养，应该是下里巴人，而非单看阳春白雪。

艺术创作，其基本目的与作用，就是情感、感受的表达与传递。

站在这两点理论的基础之上，就可以说，科技进步会反作用于人文发展，其表现形式之一，就是普遍地降低了人们进行自我表达的门槛。

**1.AIGC的发展**

2022年，从DIsco diffusion出圈开始，我接触到了AI绘画。最开始只是当成一个新鲜的玩具随便玩玩，或许和下了个新游戏差不多的心态。用百度云下了个别人打包好的DIscodiffusion被告知要花50块解锁的时候，真的挺生气的。咽不下这口气，没有任何编程基础的自己跟着网上的教程下了Git，下了VSstudio，下了Nvidia的CUDA，下了Conda配了Python的环境，顺着天书一般的报错下程序运行所需的组件，全程所花费的时间价值绝对超过了50块，但是最终自己用DiscoDiffusion跑出来海岸线上的灯塔的时候，确实挺爽的。

后来又下了Stable diffusion，下了SD1.4、NovelAILeak这两个仅有的大模型，跟着瞎跑了千八百张图，瞎玩。再后来QQ群里传出了Anything融合模型。再后来大炼金丹，Civitai上大模型到处都是。再后来有了controlnet，实现了深度检测（实际上SD2.0就有depth版的了）、边缘检测等等。再后来有了Lora，角色、画风、特性的传播更加轻量化。

同期的Midjourney和DALLE2或许有着比SD1.5更优越的性能，但是借助着开源所催发的新生事物的无穷生命力，是极其令人震惊的。Midjourney与DALLE2的发展如何我不清楚，但SD的发展说是日新月异可说毫不夸张。

(besides,我有个DALLE2的prompt guide book，其中有不少思路对SD也是适用的，感兴趣的话可以在评论区反应下，我之后也许可以再写一个专栏分享下这个文件)

而本文开头的这段话，和这几个例子，就是我在前两天晚上临睡前脑子里忽然闪过的。

童年时，我没有学过画画，常常苦恼于脑子里有一副非常具象化的画面，想要表达出来时，落笔却成了抽象的涂鸦。现在我坐在电脑前，只需要几个单词，就能产出一幅图像，却经常觉得脑子里空空如也。但脑袋空空是我自己的问题，技术的进步与图像生成的便捷却是无可争议的。只是偶尔会想，倘若我小的时候就有这种技术，或许童年的苦恼会少一个，小时候背单词的动力也会多一些吧。

顺着技术手段与个人的艺术表达，我又往回想起了Vocaloid。

**2.Vocaloid**

高中时我第一次在朋友家听到了他歌单里放的一首洛天依的歌，感兴趣之下就去搜了搜。当我了解了其歌曲创作形式之后，就对这种形式非常感兴趣。当时只是觉得，这种每个人都可以顶着这一个小号创作的模式挺有意思的。同样地，顺着下载V3软件、声库，自己试着调教乐曲，尽管那时我甚至不知道什么叫大调什么叫音阶，只是照猫画虎搬把谱子上的符号搬到软件界面的音乐键盘中。

但无论如何，我认为，对于性格内向或五音不全的人来说，Vocaloid技术的出现为他们在音乐上打开了一扇新的窗户。同期还有Utau，后续或许还有AI语音模仿等等。

这无疑也是一种，技术进步助力于人文发展、降低个人通过艺术方式进行自我表达的门槛的例子。

**3.合成器**

而顺着这个思路，我又往上想起了合成器与电子音乐。

在上个世纪，合成器第一次出现的时候，人们只需要扭动几个旋钮，调整方波、三角波、正弦波的参数与比例，就可以捏造出各种各样的音色。后续还有各种的采样、拼贴、合成。这是不是也算是，一种技术进步助力艺术表现、人文发展的例子呢？

时至今日，一架精良的三角钢琴还是需要几百几千万，但如果你只是想自己练习使用的话，戴上耳机，几千的雅马哈电子琴也能给你很不错的音色和手感。至于电子音乐在流行领域更是登堂入室。

在当时的人们合成器的反应如何呢？也会像如今这般恐惧合成音色带来的失业，认为是一种没有灵魂的音乐吗？我未曾研究过，因而无从得知。

**4.闲话与尾声**

从上一段的最后一部分也可以看出来，我本来是想继续写一些关于祛魅与赋魅的话题，讲讲关于AI带来的失业恐惧的事的。

但是后来想了想，算了，懒得反驳，反正现在AI绘图和ChatGPT已经在实际工作中逐渐应用起来了。事实已经发生，辩经毫无意义。

但是我又想到了一个特别好的地狱笑话，不写出来真的很难受。

“既然一帮千万富翁都能为了探险精神把自己关进一个从外部锁死的铁棺材里扔到海底几千英尺，你为什么不能为了探险精神冒险学习一下应用AI呢？”