现在,你只要有一台电脑,输入一段文字,就能生成一张高清的AI海报,无需任何平面设计的技巧。甚至有人借助AI的作品,赢得了索尼摄影奖和艺术比赛大奖。
这一切,都得益于Stable Diffusion团队的创新和开源。他们近日发布了最新AI绘画模型——DeepFloyd IF,一个强大的文本到图像的绘画模型,可以智能地将文字融入到图片中,实现像素级的图像生成。
首先,它可以准确绘制文字,这是之前的AI绘画模型很难做到的。比如你想让它画一个霓虹灯招牌上写着“欢迎光临”,它就能把文字以合适的字体、风格、排版放在招牌上,而不是像之前的模型那样画出一些乱七八糟的符号。
其次,它可以准确理解空间关系,也就是说它能够根据文字描述中的方位、距离、大小等信息,把图像中的物体放在合理的位置,而不是像之前的模型那样画出一些不符合逻辑的场景。比如你想让它画一个“一只猫照镜子看见狮子的倒影”,它就能把猫和镜子放在前面,狮子的倒影放在后面,而不是把狮子放在镜子里面或者把猫和狮子混在一起。
除了这两个突出的优势,DeepFloyd IF还有其他一些亮点。比如它是基于像素级扩散模型的,也就是说它是直接在像素层面上生成图像的,而不是像之前的模型那样先生成一个低分辨率的图像编码,再通过超分辨率模型放大。
这样做的好处是可以提高图像质量和多样性,避免出现模糊或重复的图像。比如它可以生成64×64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大到1024×1024分辨率。
另外,它还可以实现以图生图和调整风格、内容和细节的功能,也就是说你可以给它一个已有的图像,再给它一些新的提示词,让它在原图基础上进行修改或变换。比如你可以给它一个风景画,再给它一个提示词“雪”,让它把风景画变成冬天的样子。不像以前一样还需要对模型做微调就可直接实现。
其实,这个团队在2021年底才开源了第一个Stable Diffusion模型。这个模型基于扩散模型和OpenAI的CLIP模型,能够根据文本提示生成高质量的图像,而且还能实现图像到图像的转换,比如把一张照片变成油画或漫画风格。
在2022年初推出了Stable Diffusion 2.0版本,进一步提升了模型的性能和功能。这个版本使用了谷歌的T5-XXL模型作为文本编码器,替代了之前的OpenCLIP,从而更准确地理解文本含义。
同时,这个版本还引入了像素级扩散模型,直接在像素层面进行扩散过程,提高了图像的分辨率和质量。此外,这个版本还增加了超分辨率放大器模型和深度到图像模型,分别可以实现图像的放大和深度引导的图像生成。
直到2023年4月,他们又迎来了重大突破,他们发布了全新的绘画模型DeepFloyd IF,不仅能够生成照片级的图像质量,还能够解决之前模型难以实现的两大难题:准确绘制文字和准确理解空间关系。这意味着,AI已经完全可以取代大量原画师和平面设计等岗位。或者说,取代早就已经开始了。
现在AI的发展几乎是日新月异,各种人工智能的模型迭代速度甚至以月来计算,每次迭代都有加大的智能提升。面对发展迅速的AI,我们不禁要思考,人类的未来会不会被AI取代?毕竟,AI不仅能够绘画,还能够写作、作曲、编程、翻译、聊天……几乎没有什么是AI做不到的。我们还能依靠什么来保持自己的优势和价值呢?
亲爱的读者和观众,感谢你的阅读和观看,希望你喜欢我的内容。如果觉得有价值,请点赞、评论、关注,让我和你保持联系。期待与你下次再见!