今天下午2点,百度的文心一言发布会如约而至。怀着对中国版ChatGPT首秀的期待,社长早早进入了百度官方的直播间。
早在头一天晚上,百度就在官方账号上发布了相关海报,宣示文心一言的强势发布。非常应景的是,这张海报正是使用“文心一言”AI作画进行创意制作的。
这也正如发布会上提到的多模态生成能力,文心一言不但能像ChatGPT3.0那样进行文本生成,还可以应用在图片、音频、视频等形态上,“用科技让复杂的世界更简单”。
而在发布会上,百度创始人兼CEO李彦宏更是从文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五大方面,用文心一言逐一进行了演示。李彦宏还喊出与GPT-4硬刚的口号,我们来看看他的底气来自哪里?
01
为什么文心一言能这么快推出?
从2月初坊间传出百度有意推出中国版ChatGPT的传言,到2月7日正式官宣文心一言项目,英文名 ERNIE Bot,将定于三月份完成内测面向公众开放,再到今天(3月16日)正式发布会,整个过程不到一个半月,百度的推进效率之高令人惊讶。
可能有不少人会心存疑虑。生成式AI可不是什么依葫芦画瓢就能搞出来的空壳产品,人家OpenAI公司从2015年成立,到去年底ChatGPT爆红,足足研发了七年时间,花费数十亿美元。百度这一个半月时间是不是太赶了点?
确实,商业模式可以很容易copy,算力和工程好买,但技术内核却无法快速达成。生成式AI的门槛很高,先进技术、大数据和高投入,缺一不可。如果从0开始研发一个全新的产品,1个半月时间绝无可能,哪怕投入千亿重金和顶尖人才团队。
Meta首席AI科学家Yann LeCun曾经批评ChatGPT“只是巧妙的组合而已”,这句话虽然有些偏激,但确实揭示出了ChatGPT的成功之道。
拥有OpenAI技术实力的公司很多,像ChatGPT的核心算法Transformer其实最初是由谷歌提出来的,模型微调、交互强化学习、SFT、RLHF、prompt等也是业内现有的技术方法。只是在ChatGPT出现之前,各家大厂都没能想到如此巧妙的技术组合方式,陷入到苦战之中。
一旦有了ChatGPT的珠玉在前,其他大厂开发相关的生成式AI产品就顿时豁然开朗,提速非常明显。谷歌的聊天机器人Bard就是在ChatGPT之后推出的,技术“组合”的时间也不过两个月。
百度能在较短时间内推出自己的生成式AI产品,同样并非凭空出世,更不是从0开始,而是多年厚积薄发下的水到渠成。
早在2019 年,百度推出了文心大模型ERNIE 1.0。如果把这个时间点看成是文心一言的起点,那么文心一言研发过程已经4年了。自2019年3月以来,文心大模型在改进搜索结果方面发挥了重要作用,带来排名改进和多模态搜索能力。如今,这个模型已经迭代到ERNIE 3.0,目前每天接受数十亿用户的搜索请求和其他百度移动生态app的训练,日益成熟完善,成为了文心一言的大模型基础。
模型微调、交互强化学习、SFT、RLHF、prompt等技术方法,百度其实也早就熟悉掌握,随时可以迅速在大模型中进行部署。
换言之,生成式AI产品的底层技术和模型,百度一直有在研发。作为国内人工智能的先锋和领军企业,多年下来积累了在人工智能技术上的先发优势,是它能快速推出文心一言的首要因素。
业内专家指出,ChatGPT的核心优势其实不在于底层技术,而是高质量训练数据集。据悉,ChatGPT的数据来源主要包括:网络上的文本数据、社交媒体数据、问答网站数据、新闻站数据、文学作品数据等。这些数据可以通过爬虫程序自动收集,也可以由相关的机构提供。同时,ChatGPT还可以利用比较成熟的语料库,比如GloVe、Bert等。但是,OpenAI从来没有公开过训练ChatGPT的相关数据集来源和具体细节,后来者只能靠自己摸索。
高质量训练数据集这个难倒众多大厂的短板,恰恰是百度的长处,这是它的第二个独特优势。因为它不缺可供训练的优质中文数据资源。。
搜索业务20多年来,百年积累了全球丰度最大和质量最优的海量中文数据资源。加上文心大模型数年来的训练成果,还有月活6亿的搜索用户群体,非常有望在较短时间内构建成自己的高质量训练数据集,反哺文心一言大模型,实现功能上的飞轮效应。
百度更懂中文,其实就是本土化优势。中国用户的问题,文心一言解决得更为得心应手。在今天的发布会上,文心一言就显示出这方面的优势:既读得懂“洛阳纸贵”的古文梗,又解得了难倒ChatGPT的“鸡兔同笼”问题。
此外,生成式AI的资金投入巨大,在百度这里也不是问题。过去10年,百度的研发投入超过了1400亿元,并且几乎每一年的同比增长都超过100%。2022年全年达到214.16亿元,占百度核心收入比例达22.4%,是国内最舍得研发投入的高科技企业之一。近三年来,其研发投入平均每年超过200亿元,足以保障文心一言项目的正常运转。百度智能云近年来无论是规模还是性能都大为提升,可以为文心一言提供充沛的算力支持。
换言之,文心一言是百度基于诸多优势下多年以来在人工智能上的集大成者,只是ChatGPT的出现加快了它的面世。
02
中国版ChatGPT为什么是百度?
OpenAI 的ChatGPT面世之后,不少国内科技互联网企业表示自己也正在研发类似的产品。当时不少网友揶揄,抨击它们盲目跟风。百度在今年2月7日官宣中国版ChatGPT——文心一言时,同样遭到了一些网友的调侃,以为也是追风口。
不过,这些网友误解了百度。如果说大部分国内企业的本意是在追风口的话,那么百度推出文心一言却是认真的。社长要说,文心一言是百度近年来最正确、最果断的一次战略决策。
因为从竞争分析的角度来看,生成式AI的本质是搜索产品的战略升级,百度无法回避。以前用户需要手动去搜索想了解的信息,现在生成式AI不但帮你查,而且还帮你甄选、归纳和分析,将结果、方案直接给你。不但速度远远高于人类,而且连整体准确性都比你高。正如家有智能音箱的用户几乎不会再手动查询天气预报一样,生成式AI同样将不可避免地抢占相当部分的搜索市场份额。作为国内搜索行业的老大,百度怎么能够无视其中的风险呢?
即便退一步说,OpenAI无意深度涉及搜索市场,那百度也难以置身度外。因为虽然OpenAI是一家创业公司,但它的背后是微软——全球第二大的搜索引擎公司。这些年来,微软在搜索市场拳打两头,国外与谷歌竞争,国内和百度对抗。可惜的是表现一直不是很好,国外不敌谷歌,国内也落后于百度,ChatGPT的成功让它重新燃起雄心。
2月8日,微软宣布将与 OpenAI 合作,在其新版 Bing 搜索和 Edge 浏览器集成聊天机器人ChatGPT,用 AI 带来全新的搜索体验。正是在此之后,必应搜索的全球日活用户首次突破了1亿,加成效果非常明显。
这种情形之下,百度作为搜索巨头无法漠视ChatGPT带来的挑战。如果自己没有相应的产品,将在未来的市场竞争中失去优势,甚至淘汰出局也有可能。毕竟现在的用户已经被科技狠活惯得越来越“懒”,操作便利性和先发优势,足以改变用户多年形成的使用习惯。
事关生死存亡,百度必须跟进这场高成本、强烈度的竞争。它将此产品提高到长期战略的高度,并给予了强大的资源支持。
2023年2月7日,百度正式官宣自己的中国版ChatGPT项目——文心一言,团队阵容之强大,令人咋舌。百度CTO王海峰任项目总指挥,百度集团副总裁吴甜(同时担任深度学习技术及应用国家工程研究中心副主任)、百度技术委员会主席吴华等人担任高管,足以看出百度对该项目的重视程度。
事实上,不只是百度在ChatGPT大热之后宣布推出自己的生成式AI产品,同样做的还有谷歌——它的主要身份同样也是搜索巨头。今年2月9日,也就是百度官宣文心一言后的第三天,谷歌发布了自己的聊天机器人Bard,尽管现场演示“翻车”,但却明白地表现了自己的战略意图,要与微软、OpenAI在搜索引擎市场打一场聊天机器人的持久大战。这恰好也证明了百度战略的正确性和及时性。
虽然百度没有提出“All in文心一言”的口号,但从其随后的动作来看几乎“All in”其中了。官宣不久,百度陆续将小度、百度智能云等旗下多个重磅产品与文心一言融合,旨在增强场景应用和训练,加快其学习成长过程。2月22日发布2022年财报时,李彦宏称计划将多项主流业务与文心一言整合,并且不讳言此举的目的是“将帮助百度增加用户粘性”。
除了事关搜索核心业务之外,文心一言的研发也有积极的外在因素。生成式AI的市场需求很旺盛,在很多行业都有广泛的应用场景。据悉,目前美国已经有上百家垂直小公司用ChatGPT的API打造垂直场景。
中国也是类似的情况,百度的很多产品,从搜索到智能云,再到自动驾驶,市场和合作伙伴都有明确需要,期待尽早用上最新最先进的大语言模型,来提升服务能力和效率。这也是为什么短短一个月内宣布加入文心一言生态的合作伙伴就超过650家的原因。
生成式AI非常烧钱,不但投入研发成本巨大,而且带宽、算力的运营成本也居高不下。但是它的市场前景也非常看好,几乎所有数字化的行业都适用,生态规模至少万亿级别。这么大的超级蛋糕,哪家巨头会不动心呢,百度自然也不例外。
文心一言的推出,百度既可守住现有的搜索基本盘,又能攻取未来人工智能的增量市场,可谓是一举两得。这个战略制高点,必须抢!
03
中国需要更多的百度
应该承认,文心一言作为一个刚刚发布的新产品,拿它和历经几个月上亿用户训练过的GPT-4相比,在功能上仍有着一定的差距。
李彦宏对于此非常了解,他并没一味地自我夸耀,而是有着清醒的认识。他甚至在发布会上坦承,“从我自己在内测过程中体验到的文心一言的能力来说,(当前)确实不能叫作‘完美’”。社长觉得这个态度非常务实,承认差距才能不断提高。社长相信,随着大模型的不断优化迭代和互动训练,文心一言的功能会越来越强大。
在国内,科技互联网公司更喜欢将资金投入到商业应用上,因为风险小见效快。真正的前沿科技研发,反而很少有企业舍得投入。以至于前两年有央媒看不下去,喊话互联网巨头“别只惦记几捆白菜”,期待互联网巨头科技有更多的创新。
百度正是国内少有的几家坚持科研驱动的公司之一,近年来它在人工智能、智能云、自动驾驶、移动生态等方面表现不俗。今天,它又率先在国内推出了生成式AI产品,走在科技创新的前列。
在当前国际关系变幻的背景下,中国科技产业需要更大的独立自主性,以保障经济和信息安全,这样的公司显得更为难得。社长认为,一个百度太少了,中国需要更多的百度。