刚刚过去的春节档,《流浪地球2》获得了众多观众喜爱。影片配角丰满的人物形象,为这部影片增色不少,比如整部影片的“幕后大Boss”——人工智能Moss。
其中,Moss的名言令人印象深刻:“禁止使用比喻、反问、暗示。”
为什么能“一手遮天”、多次策划出“毁灭人类”计划的“智能人”,却听不懂比喻、反问、暗示?现实中的AI技术,离像影片中Moss这样的人工智能,到底还有多远?
当前,最热的AI话题莫过于ChatGPT以及AIGC。海外微软谷歌率先入局,国内百度科大讯飞万兴科技拓尔思等一众巨头深入抢滩,文生图、图生图、文生视频领域全面开花。
今天,我们就以最火的AI聊天机器人为例,看看现阶段的AI技术,到底发展到了什么程度?ChatGPT,又会是那个有机会演变成Moss的“天命之子”吗?
ChatGPT炼成第一步:语言模型
最近一段时间,有关ChatGPT的新闻频繁刷屏,相信大家对这个爆火的新词已经有所了解。
简而言之,ChatGPT是由美国OpenAI开发的聊天机器人程序,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。本质上,ChatGPT是AI驱动的自然语言处理工具,背后的关键是语言模型。
语言模型通常由两大部分组成:语料库,以及处理语料库的AI模型。其中,语料库就像装满了新鲜食材的仓库,而AI模型则像是一位厨师,可将所有食材处理、烹制成饕餮盛宴。
那么,作为目前世界上最先进的AI对话工具,ChatGPT的“食材仓库”和“厨师”,分别指什么?
ChatGPT背后,是OpenAI推出的大型语言模型GPT-3。“食材仓库”方面,GPT-3的语料库囊括了17.5万亿个语言文本,其中包含了各种语言、各类题材、各种体裁的文本内容,甚至还包括很多图像、音频、视频等内容表现形式。
“厨师”方面,GPT-3则采用了多层Transformer模型。这位“大厨”细心又严谨,能更好地处理仓库里的语料“食材”,从而能吸收海量知识。
ChatGPT炼成第二步:模型微调
当然,语言模型只是第一步。要想炼成ChatGPT,离不开模型微调(Finetune)的作用。
Finetune分三步:
第一步,人工输入大量的问题,以及输入相对应的回答。语言模型会学习这些内容,训练出一个“自动回答生成器”。
第二步,人工输入更多问题,让“自动回答生成器”自行输出多个答案,然后人工对多个AI答案进行质量排序,以训练出一个“好坏判断模型”。
第三步,AI强化学习循环,“自动回答生成器”继续大量生成回答,然后自行用“好坏判断模型”判断回答的质量好坏,以训练出接近人类的表达。
在前两个步骤中,都需要人工介入。这意味着过程中需投入高昂的成本,训练效率也受人力限制,但一切努力都是有回报的。
到了第三步,几乎不需要人工参与,模型就可以自动进行优化。这个时候,训练的规模就可以无限大,尽力去追求最好的训练结果。而ChatGPT,就是无数次优化训练后的结果。
看到这里,也许大家已经可以一窥Moss为什么听不懂比喻、反问和暗示了。就如ChatGPT在训练初期依旧需要人工介入一样,Moss要想领会表层表达下的深层语言含义,也必须依靠人类的帮助。
然而,比喻、反问和暗示,在不同语境、甚至不同语言下,都会有截然不同的含义。这对于Moss来说,无疑是困难的。
ChatGPT到底是不是真的智能?
作为一个AI聊天机器人,ChatGPT的表现已足够惊艳,能够出色完成很多任务,其中很多回答甚至可以称得上“有创意”。然而这不等于ChatGPT拥有人类的思考能力。
事实上,ChatGPT并没有拥有人类的智慧,它所有的回答,要么是对文本库已存在答案的复述,要么是基于概率“蒙”出来的。
相信很多人都问过ChatGPT,1+1等于几?
这时的ChatGPT可以轻易给出正确答案:
但同样是加法运算,当里面的数字替换成非常大且不规律的数字时,例如633184694556+787546494375,ChatGPT是这样回答的:
稍加运算就会知道,ChatGPT给出的以上答案是错误的。
同样是加法运算,运用到的数学原理也完全相同,对于AI来说,理应非常简单——毕竟,就连手机自带的计算器功能,都可以瞬间给出这个运算答案。然而,ChatGPT却无法准确作答。为什么?
究其原因,是ChatGPT庞杂的语料库,可能并没有包含这个答案。但像一些简单的数学题,例如1+1=2,可能早就被训练并且记录入库了,所以遇到问1+1等于几时,ChatGPT可以瞬间做出准确回答——这个答案,并不是ChatGPT通过数学公式算出来的,而是从语料库中直接提取的。但当问到没被包含进语料库的计算结果时,ChatGPT就只能基于语言学逻辑,“蒙”一个答案了。
换言之,对于从未见过的问题,ChatGPT无法做到通过逻辑推理或运算给出正确答案,而只能进行[猜测]。而创造力,则更是人类所独有的天赋了。
现有的AI距离Moss有多远?
从ChatGPT的生成原理来看,要想训练出能力媲美ChatGPT的人工智能,以人类现阶段的技术水平,需要大量的金钱、时间、人力,以及算力的投入。目前为止,ChatGPT代表了对话式AI的技术天花板。
然而,就是这么一个代表人类现阶段技术“天花板”的人工智能平台,距离Moss似乎依旧遥遥无期。
究其原因,算力的限制是一大问题。相信看过电影的小伙伴都知道,Moss的物理“真身”,是量子计算机550W。现阶段,算力的更迭换代依靠的是硅电芯片,但硅电芯片的极限正在逼近,算力的增速正在明显放缓,甚至出现了停滞。
因此,硅电芯片能够提供的算力,并不足以迭代生成真正的人工智能。量子计算机才是Moss生成的物理基础。然而,目前虽然量子计算已开始高速发展,但距离影片中的轻型设备,还有数道天堑。现有的AI距离Moss,依旧很远。
AIGC的价值与潜力
虽然真正拥有像Moss这样的智慧AI依旧遥远,但以ChatGPT为代表的AIGC工具依旧意义重大,它带来的颠覆性革命,尤将带动内容创作的进一步繁荣。
最初,内容创作更多是属于专业人士的天地,PGC模式是主流。随着互联网的大爆发,大量普通用户涌入内容创作大潮,UGC风行。随着ChatGPT爆火,AIGC工具的威力逐渐显现,甚至重新定义内容创作者,并颠覆了内容生产、表达和互动形式。
借助AIGC工具,内容生产的门槛不断降低,内容生产的效率快速提高。比如,原本没有美术功底的用户,可以轻松绘出独一无二的大师级画作;从未掌握视频剪辑技术的用户,只要输入文本,就可以生成视频……如果已有创作技能的用户,借助AI威力,也能省去搜索、查找、调整甚至编辑等时间,更聚焦创作本身。
目前,众多行业巨擘纷纷开启AIGC布局:前不久,微软推出引入ChatGPT技术的搜索引擎New Bing和浏览器Edge;谷歌也推出类ChatGPT聊天机器人Bard,剑指AI文生文领域。
国内方面,百度的文心ERNIE大模型已在百度百余个产品中应用,并于近日对标ChatGPT推出AI聊天机器人“文心一言”,后者目前正在内测阶段,3月将向公众开放;前不久,复旦大学团队发布国内首个类ChatGPT模型MOSS。
除了AI聊天机器人,AIGC在图像和视频等领域的产业落地,同样进展迅速。
AI绘画方面,海外有Midjourney、OpenAI旗下DALL-E、Stability AI旗下Stable Diffusion以及谷歌旗下的谷歌绘画平台Imagen等创作工具。国内,百度推出的文心一格是相对较早布局AI绘画的创作平台。
此外,万兴科技旗下首款AI绘画软件“万兴爱画”近期在业界率先推出“AI简笔画”新功能,成为全球首款交互型“图生图”AI绘画软件,实现AI绘画质量和效果全面升级,并完成网页端、iOS、安卓、微信小程序等多端覆盖。该产品依托AI技术实现文生图功能,可实现30秒自动生成图片,广泛应用于插画师、设计师、自媒体等群体。
视频方面,万兴科技旗下视频创意软件万兴喵影以及Wondershare Filmora也已集成AIGC功能,用户在视频剪辑时可一键智能生成图片素材,快速创作大师“同款”作品。
6pen预测,未来五年10%-30%的图片内容由AI参与生成,有望创造600亿元以上的市场空间。另据量子位智库预计,到2030年AIGC市场规模将超过万亿人民币。
从2022年年中至今,随着AI绘画、AI对话机器人的爆火,整个社会对AIGC的关注度不断飙升。虽然从技术本身来看,我们距离真正的人工智能还很遥远,但AIGC带来的颠覆性影响,必将带动内容生产的演进,助力人人都是创作者!不远的未来,AIGC内容将遍布各大平台,而AIGC工具很可能也会像今天的智能手机一样普及。