今年AI席卷全球,从生成图像的Midjourney和Stable Diffusion,再到本月窜红的ChatGPT,不论是图像还是文字,都突破了我们的想象,也引发了不少人的担忧。
本周,开发ChatGPT的研究组织OpenAI又推出了一个开源3D模型生成AI「Point-E」,尽管生成结果相较阳春,主要是许多点状生成的「点云」模型仍有诸多限制,但生成速度已经相当快,一个模型只需一到两分钟。
「AI起飞」的2022年
今年4月,OpenAI推出了AI制图模型DALL-E升级后的版本「DALL-E 2」,主打输入叙述文字,就能产生与文字内容相应的图片;但此模型当时并没有开放大众使用,只有开发人员能够「有限制的使用」,主要是因为OpenAI意识到深伪(Deepfake)与散播暴力、虚假内容等风险。
除此之外,还有分别在7、8月开放Beta版供大众使用的Midjourney和Stable Diffusion,也在网络社群掀起了浪潮,让人人都能成为「艺术家」。 甚至在8月底美国的科罗拉多州博览会美术大赛,一张由Midjourney「辅助」创作的作品夺得大奖,更是掀起了大众舆论及正反声浪。
尔后,在10月Meta又推出了短片生成系统Make-A-Video,尽管明显是假的,甚至模糊扭曲,但这不可否认地又是一项突破。
此外,线上生产力工具Canva、微软旗下的Office也都在近期接连宣布,将把AI图像生成模型引入自家平台,让用户制作出更有创意的文件。 虽然图片版权来源仍是许多用户挞伐的缘由,但这也展现了科技巨头拥抱AI的趋势。
只不过,在社会或法律得到一个共识之前,恶意使用的问题仍频传,大数据也赤裸裸地反映文化或性别偏见,甚至可以被使用者很轻易地绕过限制,生成暴力或不适当的影像。
AI核心技术:“扩散”,原理是什么?
视觉艺术家与设计师们今年连连受到挑战,地位似乎摇摇欲坠,但生成式AI所使用的核心技术「扩散(Diffusion)」,究竟是怎么一回事?
「扩散」一词源自于物理学当中,气体或液体均匀分布到一个空间。 但在物理学中,扩散是自然发生的且不可逆的,例如扩散到咖啡中的方糖无法恢复为立方体形式。 但是机器学习中的扩散,是重组这些被破坏的数据(即训练AI的数据内容),从而获得从噪声中恢复数据、重组出一块方糖的能力。
更详细的说,AI扩散运作的方式,就是透过添加噪声慢慢破坏数据结构,然后再从这些被「拆解」的数据中,透过筛选、「降噪」与随机采样等步骤,就可以获得一张全新的图。
而想要从文字叙述中获得图像,还得再经过一个模型叫做「CLIP」。 扩散这项技术其实已经行之有年,但OpenAI创新的CLIP让扩散变得更实用、精准。
CLIP会在扩散的阶段,根据给定的文字内容对生成的数据(例如图像)「评分」。 在训练AI的一开始,生成的CLIP评分会非常低,因为在训练初期AI能生成的主要只有噪声。 但随着扩散系统不断从噪声中重建数据,会慢慢接近匹配提示,这就像一个未雕刻的大理石,雕刻大师会告诉新手在哪里雕刻,而CLIP会在不断重复的过程当中引导扩散系统,到更高分数的图像结果。
AI发展,不只在影像
那么由CLIP引导的扩散模型能做什么呢? 除了创作图像,研究人员还尝试使用引导扩散模型来创作新音乐。
Harmonai是一家获得Stability AI资金支持的组织,而Stability AI是Stable Diffusion背后的伦敦初创公司。 Harmonai发布了一个利用扩散、以数百小时的现有歌曲进行训练来输出音乐片段的模型。
在创造内容之外,甚至可以用来合成 DNA 序列、发现新药,或是发现新的疾病治疗方法。 正如《麻省理工学院技术评论》本月早些时候报道的那样,初创公司Generate Biomedicines和华盛顿大学的一个团队研发了一个扩散模型,以生成具有特定特性和功能的蛋白质设计。
Generate Biomedicines通过解开构成蛋白质的氨基酸链来制造「噪声」,然后在研究人员指定的限制条件下,将随机的「氨基酸链」放在一起,来形成新的蛋白质。 另一方面,华盛顿大学的模型则研究有关蛋白质片段应如何组合在一起的资料数据,而这些资料数据来自于一个经过训练以预测蛋白质结构的AI。 目前他们已经借此找到一种可以附着在副甲状腺激素(控制血液中钙水平的激素)上的蛋白质,效果比现有药物更好。
AI的未来将会走向哪里? 强大而快速的机器学习不免会让人担忧许多工作、甚至人类艺术的可取代性。 不过不管是图像生成AI与ChatGPT要走上提高专业度、甚至商业化,仍有一段路要走; 在科学研究方面,AI作为辅助,也将可以提高研发的效率。