2022年,可以说是当之无愧的AIGC元年——AI绘图和ChatGPT的发展,让大量圈外人用上了以前想都不敢想的技术。这些技术在国内甚至已经有了相当“亲民”的应用,比如有短视频、美图软件就将AI绘画作为滤镜、特效功能推向用户,吸引了不少流量。
这些应用层的创新当然不是什么坏事,但葡萄君总觉得有点遗憾。因为在国外公司疯卷AIGC、三天两头就蹦出一个新突破的同时,国内好像缺少一个能在底层研究上扛起大旗,和它们掰掰手腕的公司站出来。
不过前几天我立马就被打脸了——12月15日,上市游戏公司昆仑万维召开了一场AIGC技术发布会,一口气发布了与图像、音乐、文本、编程有关的一系列AI算法与模型,并宣布模型将会全部开源(开源地址见文末附录),这在AIGC领域可不算一件小事。
这样的发布会,很难不让人好奇——他们的模型到底有没有真功夫?如果有,凭什么是他们率先有了突破?而且他人求之不得的模型,为什么他们还要全部开源?最近,葡萄君和昆仑万维CEO方汉聊了聊,发现他们并非一时兴起赶AIGC的热度,而是自两年前就开始投入实际研发,并且在某些方面已经悄悄做到了全球顶尖的水平。
一口气发布的四款模型,
到底有多强?
如果只是发布单款AI模型,或许昆仑万维还不至于让人这么好奇,毕竟国内研究AI的公司不少,总有人的赛道会与新兴技术重合。但这次发布会他们却是一网打尽,几乎包揽了AIGC的主流领域,达成了在国内还少有人做到的“全家桶”成就,而且从使用体验上来看,几款模型的水平还普遍不低。
首先是AI图像方面,他们的天工巧绘SkyPaint能支持中英双语输入内容,即使我用中英混杂的文本来生成图像,它也能较好地理解我的意思,并在十几秒内准确输出:
另外,我发现这款模型对风格的理解能力也不错。比如输入“大象 剪纸叠加风格”,它就能生成好几种不同样式的剪纸大象,精细度也不低。虽然目前效果还比不上最顶尖的AI图像模型,但它的底子很好——用的是Stable Diffusion的底层模型。也就是说只要训练到位,将来的效果并不会差。而且据说研发团队还会在此后,逐步加入图像编辑、图像修复等更细致的功能。
其次在AI音乐方面,他们的天工乐府SkyMusic是国内第一款商用级作曲AI模型,这也让昆仑万维成了国内唯一一家,被传统音乐版权代理机构接收商用AI音乐的公司。结合人类歌手的演唱,他们已经发布了近20首歌曲。说实话,如果不是提前知道,葡萄君根本分辨不出这是不是由AI作曲的音乐。
而在AI文本方面,他们的天工妙笔SkyText的表现也有点超出我预期。大家都知道中文文本的AIGC很难做,但这款模型显然对中文有一些独到的理解,甚至在某些特殊场景比ChatGPT还强。比如我选择“创建采访问题”类别并随口胡诌了一个要求,结果它竟然真的懂了,而且问题都挺有意思。
当然,它也能做到许多别的要求,比如聊天、问答、翻译、续写内容、创建食谱、写诗和对联……而且生成的参数是可调整的,比如你可以为内容设置敏感词,也可以限定它写八百字的小作文。
最后在AI编程方面,他们的天工智码SkyCode能作为插件安装在编辑器中,并又快又好地补全、生成多种主流编程语言的代码。方汉表示,这款模型目前是开源领域最好的辅助编程工具,能在工作中降低20%-30%的代码工作量。
估计不少人要纳闷:为什么昆仑万维之前看起来没什么声音,但突然就来了波大的,而且效果看上去都不错?据葡萄君了解,其实他们入局AIGC始于2020年底。当时AIGC的概念尚不明确,但在看到GPT-3这款语言模型后,技术出身的高管层随即决定建立团队研发相关技术。李开复曾经提过一个“五秒钟准则”:未来10年,人类只需思考5秒以内的工作大部分都会被AI取代——方汉表示,GPT-3让他们觉得,这个时间可能要变成5小时了,因为大语言模型将会深刻地改变内容生成行业。
这AI不投则已,一投就是大几千万的花销。首先是训练成本:他们采用了目前市面上算力最高的显卡集群A100 80G,对图像模型训练时间超过9万个显卡时、写作模型参数达到140亿,再加上时不时要租用的云服务,每年至少就要花一两千万;其次是人力成本,他们的AIGC团队目前有200余人,每月也需要六七百万维持开支。
而且抛开成本不谈,找人在当年也是一件难事。因为在GPT-3刚出世之时,国内基本还没有研究大语言模型的团队,想要组建团队只能靠从头培养。2021年他们开始研究AI音乐时也是一样——方汉提到,全中国毕业的音频专业硕士,每年可能还找不出200个。他们要走的路就是这么窄。
但恰恰是两年前的选择,给他们打下了良好的基础。因为语言模型可以说是AIGC最重要的底层积木,比如如今主流的AI图像模型实际上就由两部分构成:基于GPT-3的Clip模型以及Diffusion模型。在去年就做出国内领先的语言模型的前提下,今年能赶上新一波技术热潮、做出“全家桶”也就顺理成章了。
除了技术上的前瞻,他们也有一些其他的“拼图”,比如昆仑万维旗下拥有一款叫StarMaker的音频社交产品——这是在海外最火的K歌软件,它拥有大量正版的优质作品曲库。这可以说是他们得天独厚的优势,因为这款产品为他们积累了极强的音频处理能力和训练基础。因此方汉称,昆仑万维在AI音乐方面有全球的绝对领先地位。
02
AIGC能为一家公司带来
多大的可能性?
拥有这样一套AI技术,对一家游戏公司来说意味着什么?最大的影响当然是降本增效。一方面,降的是美术、音乐的外包成本。方汉称,如今昆仑万维自研游戏的所有音乐和部分美术资产都将不再外包。他们的某款游戏结合AI音乐,用不到一个月时间制作了200首高质量的BGM,几乎抹消了这一块的外包成本;
另一方面,增的是产品的研发、沟通效率。此前报道AI绘画时,我们就试想过AIGC影响研发,甚至成为游戏人一项必备技能的可能性。事实证明,有许多游戏公司已经验证了这一点,昆仑万维也不例外。比如如今他们的策划对接美需时,都会以AI作品打样来方便沟通。在语言模型成熟后,变化可能还会更大。
另外,AIGC也是元宇宙的一块重要拼图。因为元宇宙作为大型虚拟世界,其中的内容量实在太大了,人工去堆显然不现实。但有了AIGC,不说靠它自动生成,即便只是发挥好降本增效,也会对内容量有极大的助力。
但如果你只从游戏公司的角度来看这件事,那就显得格局小了,毕竟昆仑万维本身也不是游戏行业的常规型选手,这让他们可以有很刁钻的打法。因为不仅游戏公司在音乐方面有刚需,娱乐、时尚等其他行业也有。昆仑万维目前就已经与头部车企达成了战略合作,甚至还与教育机构达成了AI音乐教育辅学合作。想想音乐的应用场景,只能说这项应用的行业跨度会非常恐怖。
不止是跨度,在深度上,AIGC也有极高的上限。方汉举了一个例子:国外有一家公司叫Grammarly,主打用AI来进行英文语法纠错,现在他们大概有四千万用户、一千万付费用户,它的上限可能就是覆盖所有Office用户。而这还只是语法纠错这一条很窄的赛道,如果上升到更大的内容层面,AIGC对于行业的重塑程度会是颠覆性的。
但在音乐之外,AI生成文本和图像的商业化其实还需要更多探索。方汉提到了他们的认知:现在的所有AIGC作品都只是素材而非内容——比如一张AI画的画,用户最终是没兴趣看的,除非你能把它融入到你的产品、内容中供用户消费。
而这样的转变,还需要整个行业共同的努力来推动。所以他们才选择了免费开源,并且也会在这个过程中“打辅助”,通过将AIGC转化为生产力工具来盈利,比如制作Photoshop等日常工具的AIGC插件。在发布会上,方汉表示他们也会通过如Mango DB、databricks的方法,在商业支持、云服务方面形成收入来源,同时大力去做B端和C端的应用。
有一说一,这种想法在国内是比较难得的,毕竟在壁垒被反复强调的今天,谁掌握了领先技术都会想藏着掖着。但昆仑万维在开源方面的认知确实有多年积累了,比如CEO方汉自己就是国内最早一批接触互联网的人,也是中国第一本Linux书的作者。昆仑万维旗下的昆仑资本曾投资过国内最好的开源数据库厂商PingCAP,据说当时他们读了PingCAP的代码、爬了社区的数据,在见面时给PingCAP团队提了不少建议,还让对方有些惊讶——昆仑万维怎么会对开源社区这么了解?
03
AIGC是一盘超脱于
游戏行业的大棋
带着这样的认知基础,昆仑万维才做出了开源的选择。其实把技术闭源握在手里,再通过卖API盈利,是大厂非常常见且正确的做法——挣钱嘛,不寒碜。但这样做难免影响行业生态,因为无法接触底层技术,大部分中小厂商就只能购买API、做应用,以通过用户付费盈利。而开源模型,则给了中小厂商另一种低成本的选择。
这种选择最大的意义,就是能快速推动技术全面发展。因为在大量用户使用开源模型后,群众的智慧会是无限的。此前火热的Disco Diffusion和Stable Diffusion正是如此,如果Stability.AI没有开源模型,Midjourney等一系列产品就不会诞生,AI绘画也必定不会飞速发展、被探索出这么多有趣的玩法。
另外,开源也能让一些更细分、长尾,但通常情况下难以商业化的领域百花齐放。比如有一款基于Stable Diffusion迭代的模型,专门用于生成美甲图案。大厂不可能有精力来下场经营这样的赛道,但开源恰恰就能满足这种千人千面的需求。
如方汉所说,开源会推动技术民主化、降低行业的入局门槛,催生更多创新型的中小创业公司。这对游戏行业来说同样不难想象——如今几乎所有头部大厂都有自己的AI研发团队,这种壁垒没有多年积累是很难赶上的。但如果有一家公司站出来开源,或是提供全面的定制化服务,其他所有公司可能就都有了站在同一起跑线上的机会。
到了这一步,格局还能再大吗?可以。方汉提到了一点:如今全球的内容产出比在很多方面都是不均衡的,比如要论小说,全世界的产出量估计都没有中国的网文量大;但要论漫画,中国则赶不上日、美、韩。创作者的不均,对一些文化领域是不公平的,比如某种语言如果只有500万人使用,那可能就会极度缺乏各种内容。但AIGC的发展,很可能为这种局面带来变革,因为它能让所有文化领域都较为均衡地获取内容产品。
由此种种看来,其实AIGC远不止是游戏研发的助推器,而是一盘大棋。如今在棋局中有这么一家中国公司站出来,此后的局势恐怕会更加精彩。毕竟AI不是我们的敌人,而是代表着内容产业变革的前兆,以及无限的可能性。作者/以撒