文/陈根
ChatGPT的爆火点燃了人工智能万亿赛道,互联网科技巨头纷纷入局。其中,百度作为中国领先AI技术公司,同时也是最大的中文搜索引擎,成为了第一个冲刺国产版ChatGPT的公司。蓄势了一个多月,承载着万众的期盼或好奇,“国产版ChatGPT——文心一言”终于在3月16日正式亮相。
百度同时公布了文心一言的邀请测试方案。3月16日起,首批用户即可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。此外,百度智能云即将面向企业客户开放文心一言API接口调用服务。
那么,承载万众期待的“文心一言”满足了众人的期待吗?百度推出“文心一言”后,国产版ChatGPT局面又将发生怎样的变化?
百度文心,十年磨一剑
在中国众多科技大厂中,百度是最早针对ChatGPT做出明确表态的公司之一,也是中国最早布局人工智能的公司之一。
2022年9月的世界人工智能大会,百度创始人、董事长李彦宏就在开幕式上发表视频演讲,表示百度已在人工智能领域摸爬滚打10年,10年累计研发投入超1000亿元,2021年核心研发占比23%,研发投入强度持续位于全球大型科技公司前列。相较而言,去年前三季度,阿里、腾讯、美团的研发投入占比分别约为15%、10%和8%。
持续的研发投入让百度在人工智能领域愈发沉淀。在2023年百度Create大会暨百度AI开发者大会上,李彦宏提到,百度是如今少有的同时具备人工智能四层能力的公司,这包括芯片层的昆仑AI芯片、框架层的飞桨深度学习框架、模型层的文心大模型和应用层的搜索、自动驾驶、智能家居等产品。
芯片层方面,百度是中国第一批自研AI芯片的互联网公司。百度的昆仑AI芯片研发始于2011年,正式发布于2018年。对外发布时,昆仑已支持百度业务多年。到2020年秋天之前,已有超2万片昆仑芯片每天为百度搜索引擎、广告推荐和智能语音助手小度提供AI计算能力。
框架层方面,百度飞桨是国内最早启动研发的自研深度学习框架。2016年百度推出的飞桨在2021年成为中国开发者使用最多的深度学习框架,在全球排名第三,开源至今,飞桨已凝聚406万开发者,服务过15.7万企事业单位,开发模型达47.6万个。飞桨能帮开发者快速创建、部署模型,它现在已拥有535万开发者,服务了20万家企事业单位,创建了67万个模型。
模型层方面,百度在2019年发布文心大模型,它可以根据用户的描述生成文章、画作、视频等多种内容,这就是去年至今大热的“生成式AI”。目前,百度的文心大模型已更新迭代至文心ERNIE 3.0,参数规模高达2600亿,是全球最大的中文单体模型。与此同时,文心ERNIE 3.0还支持生成式AI,具备强大的跨模态、跨语言的深度语义理解与生成能力。
基于文心大模型,百度目前已发布11个行业大模型,大模型总量达36个,已构成业界规模最大的产业大模型体系。目前已大规模应用于搜索、信息流等互联网产品,并在工业、能源、金融、汽车、通信、媒体、教育等各行业落地应用。
百度的“文心一言”也正是基于文心大模型而开发的国产版ChatGPT。2月7日,百度公布其类ChatGPT项目名为“文心一言”,预计将于3月完成内测并向公众开放。当时,百度宣布这一消息后,百度港股股价跳涨15%以上。
实际上,百度这些技术布局,也往往始于技术微末之时,甚至被冠以“烧钱”的字眼。但也正是十年饮冰的坚持投入,使得百度AI大底座成为了行业内首个全栈自研的智算基础设施。又正是长期技术积累带来的全栈自研能力,给行业和百度本身,都带来了更深远的影响。
文心一言,水平如何?
3月16日下午2点,百度的邀请测试展示正式召开。现场,李彦宏展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。
在文学创作方向,问题主要围绕《三体》进行询问,包括作品信息、核心内容、续写创作。当然,文心一言也准确、详细地介绍了《三体》作者刘慈欣。紧接着,文心一言总结了《三体》核心内容,条理分明地列出了3大点,并且还给出了5个续写的角度。
在商业文案创作中,文心一言则顺利完成了给公司起名、写Slogan、写新闻稿的创作任务。在连续3次内容创作生成中,文心一言既能准确理解人类意图,又能清晰地表达。并且,在回答之余,文心一言会自动增加冗余的额外解释——尽管整体内容更倾向于正确的废话。李彦宏称:“这些训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。”
除了基本的文学方向,文心一言还可以尝试解决含逻辑思维的数学推演题目,现场演示中,鸡兔同笼经典题型,文心一言的确表现出能理解题意,还给出了正确的解题思路,就像学生做题一样,按正确的步骤,一步步算出正确答案。当然,解答本质上和当下的小猿搜题、作业帮等第三方解题软件并无区别。
此外,在中文理解方面,文心一言还表现出先进的自然语言处理能力。在现场展示中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。
在多模态生成方面,李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力。比如,让文心一言为2023世界智能交通大会创作一张海报。几秒之后,一张赛博风格的图片就生成了。有意思的是,文心一言还能根据内容生成四川话等方言的语音。
但遗憾的是,这些都不是实时演示——李彦宏表示,为了保证演示效果,文心一言现场问答测试为提前录好的视频。
这也不难理解为什么发布会召开后,百度股价不涨反跌,港股百度集团跌幅近10%。不少梗图频现,消费者对产品预期之低可见一斑。实际上,就连李彦宏也直言,文心一言对标ChatGPT,但不能叫完美。尤其是从其回答表现来看,问题准确性与上下文的逻辑联系性表现尚可,以搜索引擎论已属优异,但类人性不足,可明显感知信息多从语料资料库中集成而来,并无直接对话之感。
而反观GPT-4,其在各种专业测试和学术基准上的表现与人类水平相当,不仅以前10%的超强能力通过了模拟律师考试,SAT成绩达到710,且具备解决高难度数理逻辑,拆解多语言复杂题型,以及速读看论文总结摘要的能力。两相对比,确实高下立现。
未来之路漫长
当然,虽然市场用脚投票,表示了对百度文心一言的态度,但需要指出的是,文心一言也并未一无是处,至少在国内,其仍代表着第一梯队的水平。
从技术角度而言,文心一言核心引擎为百度自主推出的NLP模型ERNIE,整体框架基于BERT模型改进。ChatGPT和文心一言都是基于Transformer模型架构,但GPT采用单向语言模型,而文心一言则采用双向语言模型。因此,在实际操作时,GPT对于文本生成更为敏感,比如聊天、写作等语言生成方向表现优异,而文心一言对于文本理解更为敏感,在问答、语义关系抽取更有优势。
也就是说,文心ERNIE类人性稍差,回答以精准理解为主,同时更多聚焦于本土化,在语义复杂的中文NPL处理中有显著优势,毕竟由于各种限制,即使是最新版本GPT-4测试的26种语言中也并未涵盖中文。实际问答题体验中,当涉及中文语义理解时,ERNIE表现突出,甚至部分胜于GPT3.5。比如,在关于洛阳纸贵的回答中,文心一言可正确理解其的经济现象,古诗词的可读性和观赏性也更高,更符合国人的审美与品味。
当然,作为首发的国产版ChatGPT,文心一言的发布也进一步暴露出国产化ChatGPT的困境。虽然百度已经在AI的各个层面都有较为全面的布局,并且具有中文世界里最大的数据库,但百度同时面临的一个更大的困境,就是数据的质量问题,因为没有高质量的数据就难以训练出高质量的类ChatGPT产品。
如果百度训练ChatGPT的数据优质,那么输出的结果也相对客观。如果训练的数据都是百度中文世界的网络信息,那么可能就要慎重,以免曾经的魏则西事件重演。因为如果训练的数据质量,以及产品背后的规则不够清晰,结果可能就不会有那么理性。实际上,这也是中文互联网的问题。
当然,就百度来说,其在人工智能领域还面临着另外一个重要并现实的挑战,那就是推行类ChatGPT的业务可能会对其传统的搜索业务带来影响。而传统的搜索业务中,广告收入是百度当前最主要,也是大部分的利润来源。如果百度的传统搜索业务中的广告业务受到了类ChatGPT技术的影响,必然会影响到百度的研发投入。
此外,在落地场景方面,ChatGPT能否适应中国各行各业的碎片化转型需求,尚有待验证。李彦宏也坦言,“ChatGPT是AI技术发展到一定地步后产生的新机会。但怎么把这么酷的技术,变成人人都需要的好产品,这一步其实才是最难的,最伟大的,也是最能产生影响力的。”
对于人工智能而言,比拼的不单单是人工智能领域的技术研发,而是集人工智能研发、算力、芯片、数据等多方面的集成综合实力。而百度和文心一言才刚刚出发,未来还有很长的路要走。