当前位置:首页|资讯|百度|文心一言|李彦宏

从Q4财报看百度做“大语言模型文心一言”的底气

作者:界面新闻发布时间:2023-02-22

原标题:从Q4财报看百度做“大语言模型文心一言”的底气

财报显示,2022年百度核心研发费用达到214.16亿元,占百度核心收入比例达22.4%。未来,百度计划将多项主流业务与文心一言整合。

如果说2023年的科技界有什么关键词引发了“风暴”的话,“AIGC”一定当仁不让。在生成式AI技术席卷人工智能领域之时,中国的互联网公司争相进场。

2023年2月7日,百度官宣即将发布的生成式AI产品大语言模型文心一言(英文名ERNIE Bot)。

一时间,外界开始好奇百度为何能够、又将如何建设这一项目。在美国人工智能实验室OpenAI研发出的聊天机器人项目ChatGPT横空出世之后,“AI”成为当下科技巨头的又一个战场。实际上,ChatGPT得益于OpenAI在语言模型上的前沿探究,需要极大的算力和数据支撑。而文心一言可以说是百度在多年的技术积累中沉淀出的结果,诸多成果以这样一种全新的方式呈现出来。

北京时间2月22日,百度(NASDAQ:BIDU,HKEX: 9888)发布截至2022年12月31日的第四季度及全年未经审计的财务报告。2022年,百度实现营收1236.75亿元,归属百度的净利润(非美国通用会计准则)206.8亿元,同比增长10%。第四季度,百度实现营收330.77亿元,归属百度的净利润(非美国通用会计准则)53.71亿元,同比增长32%。2022财年,百度核心连续四个季度业绩超市场预期。

值得一提的是,财报发布后,百度创始人、董事长兼首席执行官李彦宏在内部信表示,百度计划将多项主流业务与文心一言整合:文心一言与搜索整合,将引领搜索体验的代际变革;文心一言将通过百度智能云对外提供服务,根本性地改变云计算市场的游戏规则;此外,文心一言大模型还将搭载到Apollo智舱系列产品,并与小度进行集成。

在上述数据的支撑下,或许我们可以理解百度推出“大语言模型文心一言”的底气和决心。

从搜索业务长出来的技术优势

在更好地理解科技公司们的AI军备竞赛之前,自然语言处理(NLP, Natural Language Processing)是一个不得不提的关键词。而在NLP领域,目前中国还没有出现一家公司水平接近百度。

这个被称为“人工智能皇冠上的明珠”的语言早就成为了百度搜索技术的重要组成部分。从公司诞生、处理用户的第一次搜索开始,百度就开始了积累NLP的征程。并且,随着百度的快速发展,NLP同时甚至更快地发展壮大。

2010年初,百度对NLP的工作进行了重新梳理与规划,正式成立百度自然语言处理部,不断在语音、图片等技术上布局。这意味着,百度早已敲定了其在知识图谱技术上长期投入的战略。

和那些突然面世的互联网产品创新不一样的是,NLP作为AI领域的核心技术,需要多年的打磨和钻研。在长期的摸索之中,百度逐渐在NLP上建铸了壁垒——可以说,中国绝对没有一家公司目前水平接近百度,也没有任何一家公司能利用这个技术挑战百度。

值得一提的是,同一时期内,业界开始进入开放域对话大模型的研究,这一技术让生成式对话有了质的提升。2021年9月,百度发布了PLATO-XL,这是全球首个百亿参数的对话大模型,超过 Facebook Blender、谷歌 Meena和微软 DialoGPT,成为全球首个百亿参数中英文对话预训练生成模型,再次刷新了开放域对话效果,打开了对话模型的想象空间。

除了语言模型方面的积累,综合能力也成为百度在大语言模型文心一言研发过程中的护城河。目前百度拥有芯片、框架、模型、应用四层技术栈,其中,大语言模型文心一言恰恰处在模型层。

芯片层面,百度自研AI芯片“昆仑”已在多场景实际部署几万片,在公司搜索业务中也已形成较强工程化实践,从而保证了最底层的算力。

在模型侧,百度文心系列大模型在行业已普遍应用。早在2019年,百度就推出文心大模型,这一模型和Open AI专注的GPT模型类似,如今已经迭代多代,正因为此,“文心一言”所基于的ERNIE系列模型也已具备较强泛化能力和性能。以最新发布的ERNIE 3.0 Zeus为例,该模型迭代于ERNIE 3.0,拥有千亿级参数。其已经具备智能创作等各类自然语言理解和生成任务,且公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。

算法方面,数据显示,百度拥有多个云计算可用区、庞大的超算集群,奠定大模型训练的基础设施。目前公司有阳泉、徐水、定兴三个云计算中心,有了这样的基础建设,百度智能云就可以为ERNIE大模型应用提供高并发、高弹性、高精度等不同计算需求。

还有一个逃不开的讨论层面是数据。模型训练离不来互联网中海量的文本数据,而百度的搜索业务在真实数据和用户需求理解上的积累有较强的先发优势,这些大规模的数据可以支撑ERNIE bot的充分预训练。随着ERNIE Bot面向公众的开放,其有望建立起立真实的用户调用和模型迭代之间的飞轮,模型也会越来越聪明。

中金互联网行业首席分析师白洋点评称,“AI的三要素包括算力、算法和数据,我们认为百度在这三项上拥有领先优势。百度在芯片层、框架层、模型层和应用层进行全方位布局。”

“文心一言”反哺搜索业务

必须承认的是,ChatGPT产品的横空出世,让不少巨头心头一紧。危机感来源于这个项目强大的技术能力和应用范围:人们开始发问,拥有了这样的聊天机器人,我们还需要搜索引擎吗?

很显然,谷歌、微软都开始乘胜追击。2月初,谷歌开始开放一项名为Bard的对话式人工智能服务项目;微软则推出有ChatGPT加持的必应搜索引擎。

但和业务受到威胁的谷歌不同,ChatGPT的出现实际上会给百度的业务带来更多惊喜,而大语言模型文心一言也将对百度的搜索业务产生深远影响。

ChatGPT这样的语言模型目前最好的商业应用就是搜索服务——生成式AI和搜索引擎之间的关系恰好互补。ChatGPT可以带来搜索服务DAU及用户使用时长的攀升,同时,搜索又能充分利用AI技术完善升级,形成代际变革。据了解,未来文心一言可供普通用户注册账号可用。随着内测与开放,建立真实的用户、开发者调用和模型迭代之间的飞轮,模型将越来越聪明。

众所周知,搜索恰恰是百度一直以来的基本盘,在中文搜索市场,百度的绝对优势毋庸置疑。

财报显示,第四季度百度移动端搜索查询次数和信息流分发量继续实现同比两位数的增长。12 月,百度App月活跃用户达到6.48亿,同比增长4%。此外,随着国内市场消费需求释放,百度在线广告营销业务预计将迎来复苏。

在百度Create AI开发者大会前夕,百度搜索宣布将基于百度自研的生成式模型升级“生成式搜索”能力。在“文心一言”落地搜索之后,更新的交互体验和独特的生成内容可以助推百度扩大搜索的服务场景和市场规模,对于平台的内容供应商和创作者同样有益。例如,百家号发布者就可以使用AI功能,提高将文本和图像转换为短视频的效率,增加短视频观看时长和广告收入。

种种趋势表明,百度无需像谷歌那样对ChatGPT的爆红如临大敌。相反,百度成为这场浪潮中的最佳受益者之一。

走向云服务的旷野

大语言模型“文心一言”的面世,将成为百度在技术上长期积累的一次集中展示。长期来看,它的赋能作用不仅体现在搜索业务上,同样会带领百度走向云服务的旷野。

今年2月17日,在2023 AI+工业互联网高峰论坛上,百度智能云宣布“文心一言”将通过百度智能云对外提供服务,率先在内容和信息相关的行业和场景落地。

百度集团执行副总裁、百度智能云事业群总裁沈抖表示,“文心一言”是基于百度智能云技术打造出来的大模型,它将根本性地改变云市场的游戏规则,云服务将从数字时代跃迁到智能时代。”沈抖认为,以前企业选择云厂商更多是看算力、存储等基础云服务,以后企业对云的需求会更加聚焦智能服务,会更多看框架好不好、模型好不好,以及模型-框架-芯片-应用这四层架构之间的协同是否高效。

推出大语言模型“文心一言”的消息一经宣布,众多企业纷纷加入战线。据了解,目前已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的近300家头部企业宣布加入百度“文心一言”生态。

究其根本推动力,早期百度在智能云上积累的深度能力,帮助它先一步拿下赛场门票。

百度智能云提供了四层的全栈产品,从云基础设施到包含深度学习开源框架的深度学习平台,再到大型基础模型和最终的应用程序。去年12月27日,百度智能云发布国内首个全栈自研的AI基础设施“AI大底座”,并全面升级25项产品和技术。

“AI大底座”的提出意味着,作为云计算厂商,百度将标准化地输出智能化的底层能力,把芯片、大模型、深度学习框架等高门槛的技术,变成像水电一样供客户按需取用。在这一思路下,大语言模型“文心一言”将作为云业务的一部分,为百度智能云赢下更多的市场空间。

从百度近几年的营收结构来,公司有意识地走向多元化,非广告营收占比逐季增加。IDC报告显示,2022年上半年,百度智能云在AI公有云服务市场稳居第一,这也是百度智能云连续四年市场份额第一。

对于百度来说,大语言模型“文心一言”已经不仅仅是一个创新项目。这代表着公司已经从搜索业务出发、通过多年的技术积淀形成真正的壁垒,成为一家以技术为核心、深入AI探索的长期主义公司。摩根士丹利在报告中预计,百度全年将继续保持高于行业的增长,亏损大幅收窄;麦格理预计,公司今年广告及云服务收入增长将会有所回升,受惠于有效的成本控制措施,整体利润率提高。

百度创始人、董事长兼首席执行官李彦宏表示,“凭借在AI领域的长期投入,百度将抓住即将到来的AI拐点,为我们的整个业务组合——从移动生态到智能云、自动驾驶、智能硬件等——开拓全新的机遇。”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1