关于AI绘画,过去已经谈过一次。
相关观点至今没变,属于生产工具升级,生产关系暂时不变。
比如还没看到相关报道有某个企业老板自习AI绘画,辞去公司插画师的新闻。
好像没有。
这里头有外行看热闹,内行看门道,新手两边看的情况。
当然,还有无数好事者的呐喊助威,各怀心思。
Ai绘画目前更像一个人工智能玩具、素材制作、灵感参考、绘画新工具的存在。
我们要敬畏它,学习它,运用它,但不要过分焦虑。
道理不复杂。
你连身边同事都还没比过,怎么好意思担心人工智能。
而且这里头有两个重要问题有待解决,其一是版权。
如果AI生成图像跟成名艺术家过于相像,容易形成抄袭一类维权纠纷。
这里头容易埋坑,就是一但立法跟上,可能会对过去应用进行责任追讨,律师事务所自然喜闻乐见,摩拳擦掌。
比如现在的图片侵权可以是5年前取证,现在告你,问你怕不!
其二是如果不用以图生图方式,其实主流的两大ai工具MidJourney与Stable Diffusion都有较明显的风格化问题。
容易一眼看穿出身,形成我们设计圈常说的素材感很强,模板感很强的感受。
比如我看目前朋友圈的大量分享确实一眼就知道ai出品,有时候两眼。
看多了,新鲜感就会消退,而且就实际商业应用而言,受不受欢迎不好说。
免费做应该还行,甲方如果付费了应该并不希望你用ai弄一套东西给他。
但ai进步实在太快,以上说法也许很快不能作数,因此文章有效期7天。
今天的话题并非要进一步评价ai绘画,而是跟大家讲述它的发展史。
从历史角度,还原一下妖怪的诞生。
故事,要从70年代说起。
一、伪人工智能
这段历史,几乎每个人都会从一位英国艺术家说起,此人名为科恩(Harold Cohen)。
生于1928年的科恩在2016年去世,一生致力于研究如何采用计算机程序创作艺术。
科恩早年就学艺术,随后再学编程,文理兼修,打通任督二脉,也就是艺术与科技的屏障。
因此,1972年在他手上诞生了“亚伦”(AARON)程序。
这个程序被视为ai绘画始祖,个人认为相对牵强。
当然我所谓的牵强要看怎么定义“ai绘画”,就目前ai绘画的形态来看,“亚伦”更像打印机。
因为“亚伦”创作的真的是画,画在纸上那种(或者画布)。
由于“亚伦”至今不开源,而且科恩已经去世,其作画原理细节目前是个迷。
但按理解,就是通过编写好的程序指导机械化操作,跟如今工厂的机械臂差不多。
我曾在《平面设计史》系列第46回介绍过乔布斯大神“Mac”电脑的诞生。
Mac电脑首次集成可以处理图像及文字的软件,绘画由此真正进入可视化的电脑时代。
世界上第一款图文设计软件也由苹果公司开发,随着Mac电脑一起发布,名为“MacPaint”,(“麦克油漆”)。
当年的产品发布会上乔布斯还为大家现场展示过这款软件绘制的浮世绘图像,创作者是美国女平面设计师苏珊·卡雷(Susan Kare)
这其实也可属于ai绘画历史的一部分,就是生产工具的升级。
当时而言,对绘画界的震慑威力也不小,大家也很恐慌,很焦虑。
传统画家都说糟糕了,老子要失业。
再然后,默默学习,默默适应,默默发展,默默变成自然。
历史就是这么有趣。
二、闷声干大事
Mac之后,科技分别在计算机+互联网领域奔跑。
那时候,我们对科技进步感知其实还不够明显。
但从乔布斯2007年推出iphone手机后大家就明显感觉科技发展“提速”了。
此后惊喜不断,高潮迭起,一环扣一环,大家应接不暇。
其中,就有不少人在默默耕耘人工智能。
于是乎,重要的拐点发生在2012年。
这一年谷歌两位AI大神带领团队做了个试验,耗资100万美元,1000台电脑,16000个CPU,用时3天,基于Youtube平台1000万个猫脸图片,用深度学习模型程序生成了一个模糊的猫脸。
两位大神分别是华裔人工智能科学家吴恩达跟美国计算机科学家杰夫·迪恩(Jeff Dean)。
试验中生成的猫脸像被揍过一样,如果不说明,一眼还不容易看出来,但它的诞生注定要写进历史。
因为这其实才是AI绘画真正意义上的起点。
这里要用通俗的概念科普下,什么是“深度学习模型”。
简单说来就是需要向这个“模型”大量“投喂”外部标注好的训练数据,然后让它根据输入的预期效果进行反复调整与匹配进行输出。
这样说吧,蒸汽机刚发明的时候,按燃料热值产出效率才3%,“深度学习模型”的产生效率可能只有它的百万分之一,所以超贵。
但不管如何,猫脸的诞生让大家备受鼓励,各路人工智能领域大神开始一路狂飙,闷声干大事。
很快时间就去到2014年,加拿大蒙特利尔大学有个爷们提出了“生成对抗网络”算法进行AI绘画,简称“GAN”。
GAN的原理是它拥有两个深度神经网络模型,一个叫生成器(Generator)一个叫判别器(Discriminator)。
为了方便理解,可以做个比喻,生成器就像乙方,负责做图,判别器就像甲方,负责说不行。
每次乙方做完一张图出来甲方就说不行,要改,乙方改完出来甲方还说不行,继续改。
如此循环上万次(很短时间内发生),直到双方筋疲力尽,甲方决定妥协,乙方也准备不要尾款算了,然后就输出一个最终结果。
坦白说,GAN的输出效果已经让人惊艳,一度成为AI绘画的主流方向。
但缺点是非常费硬件(显卡),出图过程经常直接黑屏,而且它对局部图像的理解能力差,很难局部修改,图片分辨率也较低。
到了2015年,谷歌推出过一个叫“深梦”(Deep Dream)的图像生成工具,这些画作全部都像有一堆疙瘩,生成痕迹明显。
但也打出AI绘画旗号,而且还专门办了个展,其实比较出戏,这里不多聊。
同在这一年,一种重要的人工智能技术也诞生,就是“智能图像识别”。
意思是计算机可以运用语言去描述一张图片,就像父母拿着卡片问2岁宝宝这啥,宝宝会答:大象。
这个技术当然更先进些,比如你给一张高启强的图片它识别,它会给出一系列标签,比如:男性、黄种人、中年、老大之类。
这跟AI绘画有什么关系呢?
就是有研究人员开始根据技术反过来想,如果给它文字标签描述,是否也可以生成图片呢?
结果模型真的能根据文字生成一堆小图片,如此一来,这个逻辑成为AI绘画的新研究方向。
三、潘多拉魔盒
2015年之后其实还有很多这方面不同的尝试与研究,但普遍属于上述技术的不同优化。
真正让AI迎来质的飞跃是在2021年,网红人工智能公司OpenAI推出了AI绘画产品DALL· E。
这个版本的出图水平还很一般,但已经完全是根据文字提示来进行作画了。
2022年,DALL·E-2版本推出,水平大幅提升,AI绘画就是这个阶段开始获得广泛关注的。
而且更关键的是OpenAI公司开源了DALL· E的深度学习模型CLIP(Contrastive Language-Image Pre-Training)。
CLIP模型训练AI同时做两件事情,其一是理解自然语言,其二是视觉分析。
然后通过不停训练来优化两者对应程度,比如将马桶跟马桶图像完全对应上,如果马桶对了茅坑就得再来。
最后形成“咒语绘画”这样的局面。
问题来了,过去的AI绘画模型其实也有干这件事情,为什么CLIP如此优秀?
明显,就是CLIP做训练的量远远超过过去任何模型,据说大致是40亿个以上的“文本-图像”数据。
而且跟过去其它模型不同的是这些数据是免费的,并非人力成本天价的标注图像。
因为鸡贼的CLIP采用的居然是广泛散布在互联网上的各种图片。
这些互联网图片一般都带有各种文本描述,比如标题、注释,甚至标签等等,这些天然资源就是最佳的训练样本。
果然是思路一变,市场一片。
随后就很快出现不少超级厉害的应用工具。
比如2022年2月,Somnai等几个开源社区做了一款AI绘图生成器——Disco diffusion。
2022年3月份,由Disco diffusion的核心人员参与建设的AI生成器Midjouney也正式发布。
Disco diffusion跟Midjouney问世后都在不停进步。
2022年8月时候,美国游戏设计师杰森(Jason Allen) 就凭借一幅 AI 绘画作品《太空歌剧院》(Théâtre D'opéra Spatial),斩获美国科罗拉多州博览会美术竞赛一等奖。
当杰森公布这是一张由Midjouney创作的AI绘画作品时,引发了大部分参赛者的愤怒。
也引发新一轮针对人工智能技术的讨论,焦虑与恐惧。
再随后就到了2023年,相关发生的事情大家历历在目,此处不必重复。
四、未来的展望
AI从绘画进一步拓展到不同领域可以说是必然发生的了。
但关于展望,我感觉应该尽量积极点。
就是AI技术将被多国政府联合驯化,结合到经济发展中产业化,创造出更多岗位。
如同10年前不敢想象人居然可以全职就对着手机说话,并且优秀的还赚不少钱。
直播与短视频产业带动了很多故事策划、文案创作、视频拍摄、特效制作、服装道具、音视频硬件、场地租赁等等商业需求。
也盘活了过去很多传统行业。
这些事情是抖音1.0无法想象的,他们也许最初只想做一款成功的娱乐应用。
而AI最初也只是想尽量干出人类能干的事情。
更关键的是,AI只能知道过去人类想过什么,永远不知道人类接下来会想什么。
完整图文版本请加入知识星球“设计史太浓”。