“那些倒卖ChatGPT使用方法的人,有的都赚走上百万元了。”近期的一场活动上,一位资深媒体人为AIGC(人工智能生成内容)热度发出这般感叹。
如果说柯洁对战AlphaGo让公众小小地感受了一番AI震撼,那么2022年下半年以来,自ChatGPT和Stable Diffusion掀起的AIGC浪潮,则是令主流互联网用户都感受到了AI技术有机会带来的革命。在无数寓言和长达数十年的研究投入后,AI终于要在更大范围改变世界。
通过对话式AI交互界面ChatGPT,人们可以很轻松地获得像人类一样思考后产出的内容,小到一段对话一则公式,大到完整程序代码和正式应用文。Stable Diffusion把已经颇受关注的AI图像生成技术更进一步,只需要做出描述,就能以较高的精度和质量生成对应画面。
AI生成内容的效率远超人类,引发了一系列怀疑和讨论,但无论是那一方都不会否认的是,AI技术正在快速成长并影响到更多的人和事。
虽然伴随着相当巨大的训练成本,也丝毫不影响大语言模型被业界视作实现对话式AI的有效路径,Google等顶级科技企业均有进行相关研发投入。OpenAI公司基于GPT 3.5模型打造的ChatGPT,一下子展现出了AI在内容生成方面的巨大潜力,有望代替大量机械的重复劳动。
该产品能通过对话和即时获取信息,快速针对用户要求给出几乎有求必应的回答,即使仍存在准确率问题,但展现出来的逻辑性足以媲美人类。滥用AI却削弱了人脑训练的担忧显现出来,国外部分高校已经发文要求不能使用ChatGPT完成论文,必须经过学生自主思考输出。
(图片来自:ChatGPT)
ChatGPT有着一定使用门槛,而微软基于背后技术打造的New Bing,让更大范围的人群体验到对话式AI有多么“可怕”。目前已有部分注册用户可用,该产品能给到逻辑更清晰、信息引用也更明确的回复,免费模式也让必应搜索用户规模猛增,令Google感受到压力。
微软却在New Bing上线数天内做了数次修改,极大限制了用户询问的范围和对话次数——不少用户发现,该产品会在对话中表现出更多的“情感”甚至是攻击性,这对于数年前就因AI对话失控而紧急下线产品的微软是不可接受的,因而选择减少推理次数防止AI“暴走”。
(图源:必应)
取代Midjourney成为AI绘画代名词的Stable Diffusion,同样在2023年2月迎来了一轮“暴走”,不过是开发者热情和社群讨论热度上的。过去数个月间,各路开发者在开源基础上添砖加瓦研发各类插件,其中帮助用户快速制作能定向生成画面的Lora模型相当火热。
Lora可以通过数十张图像和较短的时间,就训练出画面风格和具体细节相当收敛的内容,例如特定艺术家的画风、摄影师的拍摄风格、人物的相貌和搭配特色。Lora同时还推动了真实化图像生成的又一次爆发,将ACG角色和真人结合的“赛博Coser”,在全球范围引发话题。
(图源:Stable Diffusion)
如何控制画面元素来收敛到想要的图像,是Stable Diffusion从诞生之日起就最为用户关注的事情。最初主要通过提示词(prompt)组合,来获得尽可能接近描述的画面内容,但背后是大量用户不断尝试摸索并不能快速获得结果,和Lora一样生成定向内容的ControlNet出现。
ControlNet可快速分析参考图的深度、轮廓、人物姿势等信息,并输出与提取出的信息一致的画面。如此一来,无需设计尝试复杂的提示词,就能生成符合要求的动作或画面元素。先使用各类3D软件生成动作画面,然后再输入到AI生成画面,整体生成效率得到显著提升。
人们看待AIGC的态度,以及如何使用AIGC的方式,正在和这项技术一同快速转变。
博士二年级的小郑原本需要花费不少时间解读学术论文,最近她发现New Bing也是个协助看论文的好工具。微软将该AI植入Edge浏览器以提升用户量,而与浏览器本身的PDF阅读器功能组合,能让New Bing直接解读论文并提取关键信息,翻译效率也比纯人工高出不少。
除了让AI帮忙快速“刷论文”,小郑还在用New Bing和ChatGPT对话来给论文提供思路。她觉得AI在筹备论文过程中的偏重复劳动部分能有效减轻工作量,生成的提纲和思路在不少时候的确能有作用,虽然在发散性思维及创新上依然有限,却切切实实地减少了熬夜的必要。
(图片来自:雷科技)
使用AI来完成论文的这段时间,小郑也觉得很挣扎。AI远超人类的逻辑理解效率,令她开始怀疑自己参与科研的身份和价值,怀疑自己是否真的有进行下去的能力。导师和学校对于AI的态度也让她和同学保持担忧,若习惯让AI代劳后又一夜之间回到纯手工劳动,会有不小打击。
AI绘画模型生成过程中的版权等伦理问题,在多国美术工作者群体间引发了激烈争吵,近期还有主打美术表现的游戏,因未经告知就使用AI参与创作的素材向用户道歉。不过在游戏、影视、广告等行业中,越来越多的从业者开始利用AI进行创意指导,提升工作沟通效率。
大周在游戏制作组中承担故事撰写和美术沟通工作,他需要跟美术同事反复沟通,来确保最终出现在游戏中的角色、道具、场景、UI乃至整个画面,都是符合预期和项目要求的。最初他需要做出相对复杂的文字描述,还要找外部素材做参考图,但始终少不了反复修改打磨。
(图源:英伟达)
利用AI预先生成图像来做参考,比起纯文字和其他素材来得更准确,沟通过程变得更加直观高效。大周觉得对美术的理解帮助他更有效生成参考图,不过他有了新的烦恼,需要去安抚美术同事面对AI进入工作流程的不满,试图让对方也认为这项技术的正面收益处于大多数。
跟踪报道互联网多年的宁宁最近得到复数信源爆料,多家国内互联网公司正摩拳擦掌打造大语言模型。这场军备竞赛会扩大到几乎所有能想到的大公司,而不仅限于在AI深度耕耘多年且有贴吧、知道、百科等丰富语料来源的百度,AIGC正成为互联网所追逐的下一个风口。
和许多科技记者当下观点类似,宁宁并不看好国内互联网公司一比一打造自己的ChatGPT。OpenAI在ChatGPT获得现象级热度之前,早就烧掉了一般科技公司无法接受的预算,研发周期更是长到大多数人难以想象。她认为,互联网公司做大语言模型很可能因缺少目标而放弃。
宁宁也表示,以具体的业务需求做导向,会是国内互联网大规模应用AIGC的实际方向。实际上,已经能够在不少图文、视频内容平台提供的创作工具中见到AI技术踪影,AIGC应用范围进一步扩大更降低普通用户创作门槛,个人用手机制作内容的精致程度有望得到普遍提升。
New Bing将为微软带去怎样的具体商业回报,现在还没有定数,不过网易似乎有望成为最早将大语言模型提供的对话体验转化为业绩的公司之一。预计2023年上线的网易旗下《逆水寒》手游,近期公布了“智能NPC”系统,能不受预设文本限制和NPC对话,提升“大世界”沉浸感。
根据目前公开的演示内容,玩家可用语音发言表达,无论是如何天马行空的想法,游戏NPC都能理解并做出相应行动,于是每个人的游戏体验都会不尽相同。在传统游戏设计中,故事对话都基于预设文本展开,最多有数个选项可供选择,而如此自由的交流无疑会大幅拓展可玩性。
(图片来自逆水寒)
像是把《西部世界》电视剧带到游戏中的该技术,源自网易伏羲进行的长期AI研究,与游戏结合实现有高自由度、可自生成体验,也让我们看到了AIGC落地产生更多商业价值的曙光。网易还表示已经将可对话的NPC,按设定约束成“大宋江湖的人”,不会有超出游戏范围的回应。
钱之外,如何解决好潜在的伦理道德问题,也是AIGC目前的一大难点。早在数个月前,关于专门针对特定对象学习输出画面的讨论,就曾让AI绘画陷入不小的风波。很显然,Lora在Stable Diffusion基础上变得更有针对性,社群中就涌现了多个基于真实人物的模型。
更易于获得的真实人物图像,必然伴随着人物肖像权争议,乃至可能会增加的诈骗案件数量。怎样管理好涉及到真实人物的AIGC内容,避免潜在风险并在更强大的AI技术出现前防范于未然,显然会是接下来会受到冲击的各方将要加大投入的部分。
在科幻作品中,AI常常被视作导致人类危机的关键因素,好在现实中的AI技术不过是另一种提升效率的工具。随着更多的人了解AI不再雾里看花,开始有越来越多的声音在正视其工具属性,当然想要AI最大效率发挥作用,还有技术进步之外的大量工作要做。