文|《中国企业家》记者 赵建凯
编辑|李薇
头图来源| 受访者
看到福岛核电站启动核污染水排海的新闻,张鹏在自己的电脑上选了一个AIGC机器人模板,想看看结合这个主题,AI能给出什么建议,写出什么题材的内容。
AI机器人给出来的前五条结果比较常规,都是关于核电站、核污水的历史、书目、科普知识这类内容。然而,之后的几条结果,让他感到了几分惊奇。
“我觉得后两条建议,真的超出了想象。”坐在北京清华科技园赛尔大厦五层的会议室,张鹏对《中国企业家》说道。赛尔大厦五层是智谱华章公司所在地,这家公司更为人熟悉的名字是智谱AI,张鹏则是这家AI创业公司的CEO。
这台智谱AI研发的AI机器人,按照张鹏的提问,生成的一条建议是,“结合AR或VR的技术,做一个全场景式的虚拟游览,带着人去看下福岛核电站现在的状况与以前的对比、差异有哪些,‘切身’体验一下核污水排放的影响到底有没有,影响究竟几何。”
这个结果,于张鹏的个人感受虽然是意料之外,但如果结合到他现在所做的事情,也许就是情理之中了。或许是这台AI机器人背后的算法,捕捉到了张鹏在平时工作中的一些碎片信息,才给出来这样的建议。
虽然成立只有四年时间,但由于是由清华大学计算机系知识工程实验室的技术成果转化而来,智谱AI自诞生起就颇受市场关注,估值已经超过了100亿元人民币,是目前国内估值最快超过百亿人民币的创业公司之一。
有接近智谱AI的人士称,这家公司目前正处于新一轮融资中,新一轮投后估值在140亿元人民币左右,但尚未对外公布确认的具体投资人。
作为一家AI创业公司的掌舵者,张鹏现在所做的事情,就是如何将AI大语言模型在应用层面上,实现更快、更好的商业化落地。
从OpenAI受到启发
有人把2023年定义为“大语言模型元年”。一个关键的理由是,今年以来国内已有十多家AI公司的融资都超过了1亿元,除了智谱AI外,还有百川智能、澜舟科技、Minimax等公司。
“元年”的触发点,是去年11月份OpenAI公司首次向公众开放自家的聊天机器人ChatGPT,不仅推高了AI投资浪潮,更推高了AI发展的新一波技术浪潮。
投资圈、创业圈里很多人都认为,如今的AI技术的重要作用和影响,并不逊于智能手机、云计算。这项技术的应用,可以重塑很多行业,比如广告营销、金融、电子商务等。
那些可以完全掌握这项技术的核心的AI公司,或者那些可以充分应用这项技术的公司,都能率先在市场上赢得一定的市场份额,占据市场主导地位。
但在张鹏的定义中,“AI大语言模型元年”应该是2020年,也就是智谱AI成立的第二年。
2020年6月,OpenAI发布了预训练语言模型GPT-3,“刺激”了包括苹果、谷歌在内的一些科技巨头公司,投入更多的资金和人力训练自己的大语言模型。
来源:视觉中国
与以往的语言训练模型相比,GPT-3最大的不同之处在于,它所支持的训练参数的规模数量达到了1750亿个,这个规模比其上一代(2018~2019年间,OpenAI推出过GPT-1、GPT-2)的GPT-2高出了一个数量级,并且,每个参数都还可以单独调整。
GPT-3甫一问世,人们就争相探索它的文本内容生成能力,尝试着用它来撰写短篇小说、喜剧剧本,甚至创作诗歌。
但GPT-3也有自生“胎里带”的问题——它生成的文本内容的含义与对现实世界的理解、解释之间,仍存在差距。
虽然生成的文本在(英语)语法上是正确的,但却脱离了现实,比如,它会写到“从夏威夷跳到17需要两条彩虹”(“it takes two rainbows to jump from Hawaii to 17”)。
“GPT-3的应用效果在一开始推出时并不是很好,但在当时也确实让大家看到了一种新思路——确切地说,是从当时AI技术研究的角度来说,创造了一个新的思路。”张鹏说。
GPT-3带来思路启发后,业内出现了两极分化,一拨人觉得它是个新物种,非常赞。而另一拨人觉得它既没有生成什么新的东西,在背后也没有什么高深的理论支撑,只不过是“大力出奇迹”而已,应用效果也并不是很好。张鹏则站在“两极”之外,以开放的视角来看待。
在张鹏看来,技术的衍生、演进是线性连续的,“永远是慢慢地往上涨、往上涨”。当技术的研究和应用累积到一个“阈值”时,会迈过一个很关键的“坎儿”,这时的变化或效果就好像实现了一个阶层跳跃,会让大家大吃一惊,几乎超过所有人的预料。
“当时(2020年)令我吃惊的,并不是GPT-3在原理或理论上的突破,而是这种技术变化或效果的阶跃的出现,也就是所谓的‘智能涌现’。”
OpenAI的研究员统计出,在目前各种不同的大语言模型中已经出现了接近140种所谓的“涌现”能力。
“所以在我心里,把GPT-3出现的2020年,看作这一波AI技术(生成式预训练模型)浪潮的‘元年’。” 张鹏对《中国企业家》说。
冥冥之中自有巧合。OpenAI的GPT-3在2020年发布的时间,与智谱AI公司成立一周年的司庆日“撞”在了一起。
司庆日当天,国内AI领域的先驱张钹院士作为受邀嘉宾来到智谱AI座谈。张鹏建议,与张钹院士好好聊一下关于刚发布的GPT-3。
“GPT-3发布前,我们自己其实也在做这样的技术。它一发布,我们心里就隐隐有一种感受,它确实不一样。”张鹏说,“OpenAI做的这个事情,也是我们一直期待去做的,一定要去追寻去做的,更是一定要去做的。”
一周年司庆之后,智谱AI把OpenAI作为自己的对标对象,投入全情全力去做这件心中念念不忘的事情,开始规划自己的超大规模预训练模型。
“是千亿参数规模以上的那种预训练模型。在当时,能做这个事情的公司还是少数,最多只有五家。”张鹏强调。
“权衡”VS “兼顾”
接受《中国企业家》专访时,张鹏言谈间透露出典型的学者才有的一些习惯:在论述一个主题时,开始会有前情提要的铺垫,中间有论述的展开和阐释,最后有结论的输出和定论。
他的衣着,透露出的则是一种权衡之后的兼顾:白色立领衬衫传达出恰如其当的商务气质;专业跑鞋,可以保证行动自如时的舒适性。即便是正式采访前喝咖啡,也是权衡了咖啡因的提神效果和剂量后,才选择只喝一杯咖啡。
这种“权衡”和“兼顾”,在智谱AI决定下场进入大规模预训练模型“游戏”时,更有着重体现。
作为一家创业公司,要做大语言模型,“想到”之外,在“做到”时除了研究层面上的挑战,还有模型训练工程层面上涉及到的资源投入、团队、训练数据等一系列的事情,每一项都需要非常大的投入。
“要想把这个模型做出来,成本巨大。不是随随便便的一个玩家就能玩得起的。我们在当时下了很大的决心,才开始做这件事情。”张鹏说。
2019年发表的一篇论文就曾估计出,训练一种大语言模型一个版本的成本在当时就高达300万美元。有新的数据称,GPT-4的训练总成本在1亿美元左右。这些真金白银,主要集中用在数据、计算力、电力等几方面。
大模型训练所需的数据量,限制着模型能力能否持续改进。GPT-3在训练时用到的文本数据量,相当于可从互联网上公开下载的所有高质量文本的数量。而其他的可供训练用的高质量文本,被存储在一些公司的专门数据库中,不能随便、免费使用。要想使用这些专有数据,需要支付版权费。
已经有AI公司为了训练自己的模型,正在寻求与类似《卫报》、新闻集团这类的媒体机构合作,使用它们的授权文章来训练自己的模型,每年的合作费用大概在500万至2000万美元。还有的AI公司用已有的大模型生成出来的内容,去二次“喂养”,但这种训练的结果喜忧参半。
至于电力消耗,大模型训练就像是一个吃电怪兽。OpenAI在训练GPT-3的时候,用掉了1.3吉瓦时(GWh)的电力,相当于美国120个家庭一年的用电量,电费花了460万美元。
决定下场后,智谱AI面临数据不足、算力不够、成本高企与模型实用有效性之间如何权衡的困境。“对于我们这样的一个创业公司而言,在当时做这个事情,首要目标是把成本降下来。也确实是经历过一段比较困难的时期。”张鹏说。
在权衡了各种筹钱的办法后,智谱AI决定自己掏腰包做。当初“困难时期”的一个有趣场景是,公司一只眼看着训练的数据量输入越来越少,另一只眼看着银行账户上的储备现金输出越来越多。
这些流出去的钱,有一定的比例是用在购买训练所用的算力上。算力的大小与涌现能力的出现紧密关联。因为出现涌现的阈值,除了与训练数据的规模有关,更要靠算力这个“炼丹炉”的加持。
在高算力的作用下,模型规模只要稍微再扩大一些,新的能力在电石火花间就能显现出来。当初,GPT-3.5没能通过美国统一律师考试,到了GPT-4时,它以超过90%考生的分数通过了。
算力的作用机制是,把模型里的文本数据分拆成一个个字符块,这些字符块在通常情况下会一起出现。这些字符块的专业名词是“语素”(Token),可以是单词,也可以是单词的前缀或后缀,甚至还可以是标点符号。
在GPT-3的算力范围内,每一次最多可以向它输入大约2000个语素;GPT-4则是3.2万个。模型可接受输入的语素越多,它能“理解”的上下文就越长,输出的答案也就越好。
也就是说,只要算力越强,模型内部处理的上下文就越长,允许可输入的语素就越多,最终输出的答案就越好。
在业界,目前基本都是靠GPU(图形处理单元)芯片来提供这种算力。为了在成本可控的范围下,解决可以与“千亿规模模型”匹配起来的算力,智谱AI找到了国内一家云服务供应商。
这家公司2020年左右采购了一批GPU芯片,原计划是将这批算力提供给视频游戏公司,但由于市场环境变化,这批芯片最后只能堆在仓库。智谱AI急需一定数量的芯片来解决算力问题,但成本又不能太高。机缘巧合之下,就找到了这家云服务公司。
“我们先看了一下这批芯片的参数,与我们自己的计算需求相差10%左右。然后又测试了一下,基本能用上。双方就迅速达成了合作,合作量还挺大的。”张鹏说。
有了可接受成本范围内的GPU芯片,智谱AI还在想办法把模型训练的成本往下压,又做了很多后续的事情,比如,把模型压缩、量化、加速,让它能够在尽量更低的成本下运行起来。
经过这种在算法上的处理,原来在一台机器上要用到八张GPU卡(八张高端GPU卡的价格在100万元人民币左右)来计算的任务,现在可能只需要10万~20万元人民币的硬件就能有效跑起来了。
半身科学家,半身工程师
在业内人士看来,脱胎于高校实验室的智谱AI从一出生就是有技术、有人才、有客户的“三有”公司。而这背后,是在实验室时工程、技术、原理、科学理论的四位一体融合,“体”就是公司的创始团队。
来源:视觉中国
“在实验室时,我们的团队就是一边做研究一边做工程。”张鹏说。主要研究的是如何将机器学习、数据挖掘、知识图谱这些技术应用到工程实践中。
实验室从系统、理论上建立了一整套的方法论和实用工具,然后在工程中去实践。通过实践后的反馈再来检验技术研究的成果,并在实践过程中敏锐地捕捉前沿技术的一点一点的演进。
从2017年开始,实验室开始做AI预训练模型,当时还没有“大”这个前缀,在算法研究方面夯实了基础。这就让实验室团队的成员既能解决AI算法上的技术科研问题,也能解决工程上的技术应用问题。
在实验室时,团队就可以服务B端客户了,实验室也可以自己养活自己。“当成立公司的时候,差不多整个实验室团队就‘平移’出来了。所以才会有人说我们是带着技术、人才团队,甚至客户出来的。”张鹏说。
2019年的6月11号,对于智谱AI而言是一个关键时刻,在这一天,公司成立。“这就表示我们正式地从一个纯研究的实验室身份变成了一个商业化的公司,要到AI产业里面摸爬滚打地去做些事情出来。”
但在张鹏看来,本质上智谱AI做的事情本身没有太明显的变化,“我们对这件事情并不陌生,已经做了很多年”。