几年前喜欢写科幻小说,收到不少《科幻世界》的退稿信,不过这并不妨碍我的创作热情。
为了让作品更加饱满和充实,我甚至尝试学习素描,希望能画下我脑海里关于未来的想象。
编辑切换为居中
买了一本《素描从入门到精通》,发现实际上成了从入门到放弃,一方面自己没有那么多的精力练习,另一方面画画还是需要天分的。
这件事就不了了之。
直到有一天,我熟练掌握了Stable Diffusion,发现它可以把我的想法转化为图像。
编辑切换为居中
Stable Diffusion作为一款开源软件,有三大门槛,一是硬件,需要一块还说得过去的N家显卡;二是安装和部署,虽然有一键安装包,但配置依然略显复杂(前文已经有了详细的介绍);三是和AI的交互,也就是关键词(prompt)。
在我和Stable Diffusion的交流中,发现前两个门槛其实都可以很容易的解决,但后一个实在太难了。
那么,如何实现更便捷的交流呢?
一是安装翻译插件,可以方便用熟练的母语来表达,翻译后可能还会有一定的偏差,比如百度文心一言会把总线画成公交车,就是因为总线和公交车的单词都是bus,可以根据生成效果对单词进行微调,最终实现相对满意的效果。
二是参考别人的劳动成果。比如在C站看好看的照片(小姐姐,划掉),然后把他们的提示词贴过来进行学习,再根据自己的需要进行修改。
我很想刻画出一艘庞大的太空战舰的画面,我期初扔给Stable Diffusion的关键词很简单,就是科幻风格、太空飞船。
Stable Diffusion给出的画面也很简单,粗糙的一眼假的飞船。
后来发现模型选择不够严谨,飞船相关的最好是用动漫和科幻类的模型;再有就是措辞太简陋。
举例一组比较好的提示词:
Future sci-fi urban landscape, high detail, dusk, urban lighting, surreal, high-resolution, urban, modern, futuristic flying cars, silver wing killer style
特意告诉AI,我要银翼杀手的风格,它居然真的懂。
模型我选择的是著名的二次元系列:abyssorangemix2SFW_abyssorangemix2Sfw
画面比较满意了,但新问题又来了,默认画面是512*768,相对粗糙,我想要高清版当桌面怎么办?
有两个办法:一是选中高清修复重新算,这个办法缺点也比较明显,因为往往是批量出图,重新算的话会每张画面都重新算,出图速度大打折扣,同时还有很大几率算出和之前完全不同的画面;二是选中相中的照片,选择“后期处理”。
在这里可以对单张照片进行“精修”。
AI的放大不是简单的放大,而是用算法填充了很多细节,会在细微之处和原图有所不同。
不同的画面,也需要选择不同的算法。
这些算法没有绝对的优劣,可以通过多次尝试选择自己喜欢的。
从原理上来说,各个算法都有自己的“特长”。
ESRGAN是Enhanced Super-Resolution Generative Adversarial Network的缩写,是一种基于生成对抗网络(GAN)的图像超分辨率算法。
LDSR是一种用于图像超分辨率的深度学习算法,其全称为"Deep Laplacian Pyramid Super-Resolution"。LDSR算法通过学习图像的低分辨率版本和高分辨率版本之间的关系来实现图像的超分辨率。
R-ESRGAN 4x+是一种图像超分辨率重建算法。其全称为"Real-Time Enhanced Super-Resolution Generative Adversarial Network 4x+",是一种基于生成式对抗网络(GAN)的算法,是 ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks)的改进版本之一。
R-ESRGAN 4x+ Anime6B 是一种基于超分辨率技术的图像增强算法,主要用于提高动漫图像的质量和清晰度。它基于 R-ESRGAN 4x+ 算法,并使用了 Anime6B 数据集进行训练。Anime6B 数据集是一个专门用于动漫图像处理的数据集,其中包含了大量不同风格、不同质量的动漫图像,使得算法可以适应不同类型的动漫图像。
一般来说,真人建议使用ESRGAN_4x ,动漫人物使用 R- ESR GAN 4x,而科幻类的场景题材,可以用R- ESR GAN 4x+Anime6GB,实测效果更好。
经过重新修复的图片,虽然和第一次出图的画面有些一些变化,但场景还是相似,和脑海里想象的画面基本一致。