在中国市场上最高调“All in AI”的百度,能应战ChatGPT吗?
微软又用 Open AI 轰炸了全球网民的视线。早有预告的一场联合,微软旗下浏览器 bing 和 Open AI 的人工智能在产品层面完成了融合。
人们热烈而兴奋地讨论 ChatGPT,从它令人惊叹的语言生成能力,到非常传奇的创始人之一 Sam Altman,到背后使用的 Transformer 大模型,到大力出奇迹的数据预训练,到 ChatGPT 带来了哪些商业新机遇……
网友对 AI 的热情如海啸般涌来,甚至远超业内人士的预期。在 ChatGPT 刚刚火起来时,一位这个领域的创业者认为,几天后这个产品就会被大家抛到脑后。
而这些讨论中,中国的 AI 从业公司,不是被二级市场激情炒作,直到成为难以为继的泡沫;就是被放在一束批评讽刺的聚光灯下,作为“别人家小孩”的对照组。
百度的位置尤其尴尬,它同时遭遇了这两种待遇。
但抛开狂热和恐慌这两重滤镜,百度真的像有些业内人士说的那样,距离海外头部同行有2年以上的差距吗?百度在 AI 的研究进度,技术能力和商业落地的真实情况到底如何?大模型的能力涌现,就像奇点爆发,那么属于百度的奇点时刻还要多久才来?
所有的目光都被聚焦在对话形式的 AIGC。原本克制的 AI 大厂们突然迎来紧迫感,他们必须在类 ChatGPT 产品中证明自己的能力。
谷歌最先发布了基于其 LaMDA 模型的对话机器人 Bard,从其模型来看,Bard 较 ChatGPT 最大的优势在于它能接入外部网络,“提供新鲜、高质量的回复”。
但在北京时间 2 月 8 日晚的发布会上,Bard 的演示视频中出现了一条令人尴尬的 bug,在被问到“如何向 9 岁的孩子介绍 NASA 的詹姆斯·韦伯太空望远镜的新发现”,Bard 给出了一条远称不上“新发现”的答案。尽管 ChatGPT 也会犯错,但人们更关注它能做的事情,处于应战位置的巨头并不享有这种宽容。这一错误,令谷歌的股价当日暴跌 7.68%,市值蒸发了超过 1000 亿美元。
百度也处于这样的位置。
百度紧接着宣布推出“文心一言”(ERNIE Bot),产品将在今年三月份完成内测,面向公众开放。好奇的中国网民迅速发现了百度在 2021 年曾发布过的另一对话机器人 Plato,试图从中对比百度的 AI 实力。
比如,即刻用户@刘飞 在与 Plato 进行了大段对话,Plato 的回答能够做到照应上文,并构成一定的逻辑。但 Plato 的回答一般都很简短,比如被问到元宵和汤圆区别,Plato 回答“元宵是滚的,汤圆是包的”,再被追问时,答案就逐渐离谱了起来,“一个有汤一个没汤”,“一个能吃一个不能吃”,“元宵炸着吃汤圆煮着吃”……
对话之后,用户们发现,Plato 总能给出回答,但往往只有一句,且插科打诨、抬杠、顾左右而言他。
尽管在 2021 年的全球对话技术顶赛 DSTC10 中,PLATO-XL 拿下了多个冠军,但相较如今 ChatGPT 的出色对话能力,Plato 的表现,根本不是同重量级的选手。
那么对话机器人表现差异的背后,AI 实力的差距有多大呢?
据百度主任研发架构师吴文权去年 10 月接受媒体采访时透露的信息,Plato 模型迭代了三次,一开始带有“隐变量”的训练,根据多轮对话上文(Context),识别到隐含的意图是什么,而后根据概率生成回复(Response)。而到了最新的 Plato XL 模型,一些技术性的设计比如隐变量被去掉了,模型更简约了,可以节约训练资源、加快训练速度,“去掉隐变量会对效果有一些损失,但我们发现随着规模的的增大,影响会越来越小。”
Plato XL的训练规模显著扩大
在 Plato 模型升级的进程中,随着训练数据、参数规模的增加,训练技术本身的雕饰似乎不那么重要了。据吴文权称,在 PLATO-XL 中,没有隐变量,因此也没有再使用评估模块去评估回复的质量。
这一点跟 GPT-3 的训练中使用 RLHF(人类反馈强化学习),也出现了区别。
图来自科技博主夕小瑶
Plato 参数号称达到了 110 亿,属于当时领先的参数体量,但在 2021 年之后,就没有公开的模型升级或数据预训练消息了。
截至 2 月 8 日,20 社与 Plato 再次对话,该机器人表示,关停了服务,请用户等待它的兄弟应用“文心一言”问世。
但 Plato 不代表百度在 AI 领域文字生成的最好能力。
Plato 是基于百度的文心大模型进行训练的,但 Plato 的能力显然更受限。据百度官方的消息,在2021年底,百度与鹏城联合发布的“鹏城-百度·文心”大模型(ERNIE 3.0 Titan),参数规模达到 2600 亿,是目前全球最大中文单体模型,在 60 多项任务上取得最好效果。
这一参数规模甚至比 GPT 3 的 1750 亿还要大。
但问题又来了。
针对某一单独的模型来说,参数规模,有时会扮演质变到量变过程中的最大变量。在 2022 年的一篇论文《 Emergent Abilities of Large Language Models 》中,谷歌、斯坦福大学和 DeepMind 等机构的学者联合证实,复杂推理、知识推理等一些能力只存在于大型模型中,而不存在于较小的模型中,这是大模型的突现能力( emergent abilities)。
图片来自于 Wei. et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models。当模型规模变大,模型的思维链有很明显的提升
但在大模型们的参数规模都军备竞赛式地攀升到了大几百亿、千亿时,模型本身和训练方式的差异,突然出现了分野。
GPT 的路线本身,其实就像一场技术路线的押注胜出。在此前大型语言模型(Large Language Model)的研发中,2018 年逐渐演化出了两个预训练模型主流方向,谷歌提出的 BERT 和 OpenAI 坚守的 GPT。在很长一段时间里,BERT 在自然语言理解类任务中的表现比 GPT 更好,是 NLP 领域被更多押注的方向。
最最简化来说,BERT 是蒙住(mask)一个语言片段,让模型根据前后文双向进行猜测,不断训练提高猜测的概率。而 GPT 则是按照人类输出文本的方式,从左到右进行预测,称为“自回归”。
而百度的文心(Ernie)大模型就是 BERT 路线上的模型。通过进行不同的 mask 训练策略,文心大模型的表现在其出炉时的评价标准下,可谓是简单、直接且有效。ERNIE 3.0 当时在国际权威的复杂语言理解任务评测 SuperGLUE 榜单上一度登上榜首。(当然,SuperGLUE 评测标准本身也存在争议,包括无法反应数据集的缺陷偏向、任务设计武断等。)
Ernie目前在GLUE榜单排名第五
但 GPT-3.5 出现后,模型智能表现上的鸿沟骤然被拉大。艾伦人工智能研究院 (Allen Institute for AI) 符尧、彭昊和 Tushar Khot 撰文表示,ChatGPT/GPT-3.5 是一种划时代的产物,它与之前常见的语言模型 (Bert/Bart/T5) 的区别,几乎是导弹与弓箭的区别。GPT 路线的风头也一下超过了其他路线。
现在回顾,GPT-3.5 的能力涌现,更像一种突变。在 GPT-3 的训练中,Open AI 就已经进行了大规模的预训练,在有 3000 亿单词的语料上预训练出拥有 1750 亿参数的模型。但 GPT-3 的智能程度相较于当下 ChatGPT 的水平,远远不如。直到后续小数据量训练过程中的指令微调 (instruction tuning)和RLHF (reinforcement learning with human feedback,人类反馈强化学习) ,解锁了 GPT-3.5 如今出色的对话能力。
是的,研究人员们用解锁(unlock)去表述模型能力的提升,背后的意涵是,大参数模型中已经蕴含了这些能力,只是需要适当的方式去唤醒它。
GPT-3.5 被指令微调分化出了不同的技能树,其中 ChatGPT 模型更擅长对话,这是牺牲了几乎所有的上下文学习的能力,来换取了零样本学习(zero-shot learning)能力——模拟人类的推理方式来识别从未见过的新事物,来与人类对齐(alignment),于是 ChatGPT 的对话体验才会那么丝滑。OpenAI 的作者称这种性能牺牲为 “对齐税” (alignment tax)。
OpenAI 在产品上的率先成熟,让原本就激烈的竞争进入白热化。谷歌原本拥有更多 AI 研究成果储备的,但还没有急着将 AI 研究产品化,如今变得被动。谷歌之所以着急,更多是因为对手产品对自己广告收入的威胁。
资本市场对 Bard 首秀的嘘声,在 20 社看来其实过激了。手握两大 LLM 模型 LamDA 和 PaLM,其中 PaLM 也是单向语言模型,谷歌大模型在能力储备上也已经相当成熟。
身处自动驾驶行业的沈卓然认为,拥有 5400 亿参数的 PaLM 在学术任务上的结果,优于 GPT-3.5,能够和 GPT-3.5 相比的基础模型只有 PaLM(最新版可能还稍微强一点),他告诉 20 社,目前能够和 ChatGPT 在对话优化方面相比的只有 LaMDA。沈卓然目前在通用汽车旗下的自动驾驶公司 Cruise 工作(关于ChatGPT的看法,只是他个人观点,不代表公司)。
“但是谷歌的问题在于 LaMDA 和 PaLM 是两个团队分别做的,这两方面的优势并没有结合起来。Bard 目前只是基于 LaMDA 的,具体情况如何还有待观察。”
那么对比这几个最前沿的 LLM 模型,选择了 BERT+fine tuning 路线的百度处于什么位置呢?
如果对比大模型的参数规模,2021 年底,百度与鹏城联合发布的“鹏城-百度·文心”大模型(ERNIE 3.0 Titan)号称参数规模达到 2600 亿,是目前全球最大中文单体模型。这一规模比 GPT-3 的 1750 亿还要大。
但参数仅是一个因素,华为诺亚方舟实验室语音语义首席科学家刘群看来,基础模型本身有差距,虽然我们训练了很多万亿模型或者是几千亿的模型,但训练的充分程度,是远远不够的。
百度的大模型文心 ERNIE 3.0 也采用了行业前沿的训练技术,包括无监督学习,从而有效率地提高训练数据规模;自回归和自编码网络被融合在一起,进行多范式统一的预训练,因此可以兼具理解、生成和零样本学习的能力,这为百度加入这场 AIGC 大比拼提供了支持。
但综合起来看,一位硅谷的 AI 从业者认为,谷歌和 OpenAI 技术路线最主要的公开分歧是 OpenAI 非常重视 RLHF,而谷歌认为应该通过进一步扩大指令微调(Flan)来提升性能。但这个区别目前来说对于基础模型影响不大,主要是对对话系统影响大。
“大语言模型是一个很难的技术,Meta 追赶了两年多才达到 OpenAI 2020 年的水平,而微软似乎已经放弃了。国内有相关项目的公司,感觉还在(OpenAI)2020年左右的水平。”
在百度集团副总裁吴甜看来,文心大模型的训练中还有 3 个难题,第一个难点在于可用知识稀疏,怎么用无监督方法从海量数据自动提炼出可用的知识;第二个难点在于大模型怎样能学了新知识不忘旧知识;第三个难点,怎样把已结构化表示的知识和数据中的非结构化隐式知识进行统一,让大模型充分地学习进去。
摆在百度面前的情况是,文心大模型路线已定,基础理论、研发上的困难很明确,要做的就是顺着这条路不断往前推。
从 2013 年建立美国研究院算起,百度投身 AI 有十年了。从 2017 年高调宣布 “all in AI” 算起,百度押注 AI 产业也有 6 年了。站在当时的时间坐标上,百度错过了移动互联网的头部红利,它试图引领下一轮技术浪潮AI的革命;而在漫长的等待途中,百度又错过了 AI 与移动互联网结合的最大机会——推荐算法/短视频。
在过去两年互联网公司遭遇寒流时,长时间依托于大厂供养的 AI Lab “无米下炊”,国内各个厂商 AI Lab 研究和业务产出之间的矛盾越发突出,商业落地的 kpi 被摆上台面,2020-2021 年甚至出现了 AI Lab 科学家离职潮。AI 四小龙也因投入产出过低,连年巨亏,估值大减。
百度称自己在过去 10 年投入了 1000 亿研发资金,但 AI 的投入并未在财报中带来明确、可观的利润。
就在这种弥漫着沮丧的行业氛围中,AIGC 点燃了另一波 AI 热潮。数据公司 PitchBook 称,2022 年,风投已经向声称专攻AI的公司投入了 670 亿美元。业界开始把目光聚焦到 AIGC 以及背后的大模型研究上,百度也感知到了这阵风。
在 OpenAI CEO Sam Altman 的设想中,AI 大模型发展的最终目标是 AGI,当这一目标实现的时候,人类经济社会将实现“万物的摩尔定律”,即万物的智能成本无限降低,人类的生产力与创造力得到解放。这是一个带有理想色彩的终极设想。
中国公司在其中会扮演什么角色?由于众所周知的原因,ChatGPT 如今只运行于另一个平行世界。国内市场上 AI 产业如今的竞争格局就像那句登山者的格言“山就在那里”,等着有能力者去登顶。
即便数据很难比得过 GPT-3 的优质海量,即便算力也许会受到半导体卡脖子的影响,即便大模型本身需要提高,即便“文心一格”的图片生成艺术水准比不上 Midjourney……国内的 AI 公司们也需要去蹚出一条自己的路来。
经过这么多年的投入,百度在 AI 领域积累了相对全面的能力。李彦宏在今年 Create 大会开幕演讲中提到,百度是如今少有的同时具备人工智能四层能力的公司,包括芯片层的自研昆仑 AI 芯片,框架层的飞桨深度学习框架,模型层的文心大模型和应用层的搜索、自动驾驶、智能家居等产品。
▫自研昆仑 AI 芯片,据百度官方数据,昆仑芯 2 代使用 7nm 工艺,已完成无人驾驶场景端到端性能适配;
▫框架层的飞桨深度学习框架,在业界更主流的 TensorFlow 和 Pytorch 之外,也逐渐建立了在学界业界的影响力,据媒体报道的数据,现在已拥有 535 万开发者,服务了 20 万家企事业单位,创建了 67 万个模型;
▫文心大模型发布于 2019 年,到 2021 年升级到规模更大更智能的 3.0;
▫在应用层,百度有搜索、自动驾驶等产品。
在 AI 大模型这个竞争领域,是有马太效应的。在建立训练自己的模型后,吸引更多的开发者、用户来参与自己的生态,才能获得更大的优势。
比如 Stability AI 将其图片生成大模型 Stable Diffusion 开源,拓宽了整个行业宽度。OpenAI 很早就开放了 API,像 Duolingo,Notion 以及拿到 1.25 亿美元融资的 Jasper 都是调用其 API 的落地案例,最新还为 BuzzFeed 提供个性化测试、为 Amazon 解决客户和工程师技术难题等。基于 OpenAI 的创业也成为社交媒体上的热议话题。
与之形成对比的是,百度从 2019 年发布文心大模型,到 2021 年升级后开始支持 AIGC,文心在 C 端的感知非常薄弱。
据彭博社,百度 CEO 李彦宏在去年 12 月一次内部谈话中提到 ChatGPT 时称,“我很高兴,我们每天都在思考的技术能够吸引这么多人的注意。这并不容易。”李彦宏对于 AIGC 面向 C 端商业化并不乐观,但人工智能发展在“技术层面和商业应用层面,都有方向性改变”,这个热潮是一个可以借的东风。
百度顺势推出“文心一言”。这一产品据称从去年 9 月就开始训练,将在今年 3 月面世。对比异军突起的 ChatGPT,其训练过程是数据规模小得多的指令微调和 RLHF,短时间解锁了强大的对话能力。类似的情况会不会发生在文心一言的训练过程中,我们无法预测。
文心一言除了能对搜索引擎提供加持,在沈卓然来,相较于海外市场对谷歌 Bard 初亮相的不宽容,国内用户们只能玩一言,作为 ChatGPT 的替代品,只要质量还说得过去,大模型对话系统一开始应该会受欢迎。他认为,特别是刚刚接触时,大多数人会十分喜欢这个产品带来的新鲜感,在 ChatGPT 刚刚上线时,他想体验一下这个产品,结果玩了一个周末。他目前还没有体验过Bard或者一言。
而在 B 端,除了开放 API,据百度集团副总裁吴甜的说法,“文心大模型一边做技术创新,一边做落地应用”,收益一方面来源于在百度自身业务中的应用,另一方面对行业客户具体场景服务的价值。这也是百度漫长的 AI 探索过程中,调试出的发展方式,用李彦宏的话就是“反馈驱动创新”,摸着“反馈”过河。
比如在文心大模型为浦发银行提供的行业模型中,结合浦发场景积累的行业数据与知识,设计了针对性的财报领域判别、金融客服问答匹配等预训练任务。
而在无人驾驶领域,百度则是亲自下场。全无人驾驶商业化项目萝卜快跑 2022 年 Q3 订单量超过 47.4 万,同比增幅高达 311%;2021 年与吉利合资成立集度汽车后,文心与吉利还建立了行业模型,对智能客服系统、车载语音系统、领域知识库构建进行提升。自己掌握汽车硬件和智能驾驶系统层,百度在无人驾驶领域的数据和反馈直接用于训练硬件软件系统,推动无人驾驶能力提升,这是百度AI模式的一个典型。
截至目前文心发布了 11 个行业大模型,涉及电力、燃气、金融、航天、传媒等领域。相较于此前 AI 业务经常是重复造轮子,大模型的优势是低边际成本。不过要满足具体的碎片化的需求,优质的数据本身可能会是一个难题,大模型调用的成本目前也还不够低。
百度 CTO 王海峰将这一产业化路径归纳为“类台积电”模式——大模型生产企业在大模型能力、海量数据、大规模算力等方面具有优势,根据AI应用方的需求,自动化、标准化地生产不同场景领域的模型。
据媒体报道,李彦宏在内部会议上称:“ 3 个或 4 个新业务,只要有一个跑出来,我就觉得做得不错,新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”
目前看来,文心一言可能最接近这个“ 1 ”。
本文来自微信公众号 “20社”(ID:quancaijing_20she),作者:贾阳,36氪经授权发布。