“AI 技术已经发展到一个临界点,各行各业都不可避免地被改变。百度作为中国人工智能市场长期增长的最佳代表,正站在浪潮之巅。”百度创始人、董事长兼 CEO 李彦宏在百度 2 月 22 日发布的第四季度财报信中表示。
2022 年 11 月末,由美国人工智能研究实验室 OpenAI 推出的自然语言处理工具 ChatGPT,走入了人们的视野。它会聊天,会写论文,也能编代码……多样且强大的功能,和对不同场景下用户需求的满足,使它迅速火爆全球,并不断地引发激烈的讨论。其中,中国企业研发的“ChatGPT”何时面世,也成为人们讨论众多的话题之一。
实际上,在一个多月之前,就有一位知情人士曾对媒体透露过这样一则消息,即百度计划在今年 3 月发布与 ChatGPT 类似的人工智能聊天机器人服务。
2 月 7 日,百度官方正式宣布,该项目名称为“文心一言”(英文名:ERNIE Bot),将在三月份完成内测,面向公众开放。
2 月 22 日,在财报信中,李彦宏还透露,计划将多项主流业务与文心一言整合。
生成式人工智能正在快速发展,“文心一言”即将横空出世
近两年来,生成式人工智能迎来快速发展。相较于传统的人工智能,其关键之处在于拥有生成的能力,能够生成新的数据。ChatGPT 作为生成式人工智能的典型代表,本质上是一个大规模的预训练语言模型。它基于 Transformer 模型架构,能够通过对互联网上大量的文本内容和代码数据进行预训练,实现对自然语言的理解和文本的生成。
(来源:pixabay)
事实上,在很多人看来,ChatGPT 并不是一项革命性的技术。它并没有实现底层模型的突破,只是巧妙地结合了理解、生成和交互,基于如上所述的人类交互进行了强化学习,从而给使用者带来了智能的体验。
不过,复旦大学计算机科学技术学院教授、博士生导师邱锡鹏却认为:“ChatGPT 和以前的小模型相比有非常大的不同,这些不同是一些技术突破的层面的,比如其有三点涌现出来的能力,分别是情境学习能力、思维链能力以及通用指令理解能力。”
那么,目前百度正在开发的“文心一言”,与 ChatGPT 相比,又有哪些优势呢?
图丨“文心一言”概述图(来源:百度百科)
据了解,该技术能够做到“整体持平+局部超越”。超越部分主要体现在基于检索增强提升时效性和准确性,以及通过知识增强来提升多轮推理对话的能力。
据悉,“文心一言”的最初版本将被整合至百度的搜索服务中,并给用户带来全新的交互和聊天体验,以及独特的生成内容。数据显示,目前百度 APP 的月活跃用户数量(Monthly Active User,MAU)已达到 6.34 亿。可以预见的是,“文心一言”的推出,将有助于百度搜索 MAU 在短时间内的大幅提升。
同时,从长远看来,这种新的搜索形态,也能在互联网、金融、媒体、汽车等多个行业领域获得应用,不仅有利于优化用户体验,还能够增强数据性能,从根本上提高云上能力。比如,爱奇艺已在此前宣布全面接入“文心一言”,致力于探索 AIGC 等技术对影视内容的赋能。集度和长城汽车等多家车企,也将通过百度 Apollo 与“文心一言”的融合,加速语言大模型技术在智能驾驶场景的落地。
百度缘何能够做出“文心一言”
对于百度来讲,其并非从零开始开发类 ChatGPT 相关技术,而是在多年的深厚积累中汇聚了综合性的优势。
其不只拥有开发人工智能所需的算力、算法和数据,还是国内唯一一家拥有全栈自研 AI 技术的公司,在芯片、框架、模型、应用这四层技术栈上均有布局。从昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,每一层都有关键的自研技术。
比如,产业级深度学习平台飞桨,集深度学习核心框架、基础模型库、端到端开发套件、丰富的工具组件于一体。其不仅能够在应用中与实际场景融合创新,以便更好地解决产业难题,还凝聚了 535 万开发者,服务 20 万家企事业单位,支持超过 500 个产业级的开源算法模型,建立了繁荣的深度学习生态,有效地降低了 AI 的应用门槛,从根本上避免中国的人工智能软件也遭遇“卡脖子”风险。“芯片卡脖子很要紧,但软件卡脖子一样要紧。必须要把软件的根扎下去,才能让创新持续发生,才能让顶层的商业更加繁荣。”李彦宏认为。
而基于飞桨开发的百度文心系列大模型,也已经普遍应用于金融、航天、传媒、城市等行业,助力企业的智能化转型升级。
被称为“人工智能皇冠上的明珠”的自然语言处理技术,在推进人工智能的发展中发挥着至关重要的作用。可以说,谁能在该领域取得一定的突破,谁就能在人工智能领域拔得头筹。
据介绍,早在百度成立时,自然语言处理技术就在其搜索技术中占据着重要地位,并在持续不断的布局中发展壮大。
2019 年 3 月,百度发布了知识增强语义理解框架 ERNIE,融合深度学习训练与丰富的知识,具备持续学习的能力,实现机器理解语言水平的显著提升。2021 年 9 月,其又推出了百亿参数的对话大模型 PLATO-XL,大大增强了多轮开放域对话的效果。
多年以来的不懈深耕让百度在自然语言处理领域取得了巨大成就,因此目前国内还没有一家公司在该领域的技术水平能够望其项背。
作为自然语言生成式人工智能,ChatGPT 的特点是逐字实现生成的,就像人们写字一样,它所提供给用户的是一种高度智能的对话式搜索结果。那么,从商业应用上看,其最为适用的莫过于搜索。在搜索的背景下,类 ChatGPT 技术的出现是一种可以起到互补作用的颠覆性创新。
百度在中国搜索业务上的主导地位一直以来都是众所周知的。资料显示,早在 1997 年,李彦宏就开发了全球第一个超链搜索引擎;之后,其带领 15 名百度工程师对抗谷歌 800 人研发团队,并在 9 个月内研发出全新搜索技术,实现了在搜索技术上与全球最大搜索引擎公司谷歌的抗衡。百度在拒绝被收购,坚持自主发展的道路上不断前进,最终成为了全球最大的中文搜索引擎。
今年 1 月初,在百度 Create AI 开发者大会举办的前夕,其就宣称会基于自研的生成式模型,升级“生成式搜索”的能力,希望能够利用类 ChatGPT 的技术完成搜索的代际变革,丰富内容的生态和供给。
因此,在此发展背景下,百度能成功开发出“文心一言”也就不足为奇了。
兼具“生成式AI”能力和搜索市场优势,百度或成为中国的“OpenAI+Google”
ChatGPT 的普及和与之相关的应用的发展,不但让人们在探索使用的过程中惊喜连连,还不免引发他们对人工智能在未来可能颠覆工作和生活模式的隐隐担忧。
大部分人都相信 ChatGPT 技术的出现,不仅是人工智能发展的里程碑,更是一个明显的分水岭。这意味着,人工智能将有可能实现由弱人工智能向通用人工智能的跨越,能像人一样思考并执行多种任务,甚至终有一天会超越人类。
因此,目前包括微软、谷歌等在内的全球科技巨头纷纷积极行动,推进 ChatGPT 及其背后的技术朝着真正成熟的商业化方向迈进。
1 月 24 日,微软官方宣布向 OpenAI 投资 10 亿美元,并将 ChatGPT 接入微软旗下的搜索引擎必应。另外,谷歌现任 CEO 桑达尔·皮查伊(Sundar Pichai)也表示,将很快推出类似 ChatGPT 的大型语言模型,并在其搜索引擎中加入高级人工智能功能,让用户能以“搜索伴侣”的形式使用语言模型。
如上所述,ChatGPT 最主要的应用是搜索。基于生成式模型的能力,传统的搜索能够重新焕发生机,迎来内容形式的变革和内容生态的极大丰富。这对一向以搜索业务为基础的百度来说,是一个很好的发展契机。
而百度对人工智能在研发资金、人才、数据等方面的投入和积累,以及在人工智能大生产上的规模化发展,也驱动其成为最有可能挑战 OpenAI 的企业。
据悉,百度即将推出的生成式对话产品“文心一言”,将通过百度智能云提供服务,并率先应用于内容和信息相关的行业和场景。由于目前国内用户尚无法注册 ChatGPT,且海外大模型对中文语义的理解也仍需加强,这也在客观上给百度“文心一言”的普及与发展提供了机遇。
百度集团执行副总裁、百度智能云事业群总裁沈抖在“2023 AI+工业互联网高峰论坛”上表示:“‘文心一言’将根本性地改变云市场的游戏规则,云服务将从数字时代跃迁到智能时代。”这表明,未来的云服务将更多地聚焦于智能,而非算力和存储等基础云服务。那么,若百度将“文心一言”作为平台开放,供第三方开发应用,那么该技术也将很好地促进云业务的发展,为百度智能云开辟更多市场发展的空间。
图丨百度集团执行副总裁、百度智能云事业群总裁沈抖(来源:百度智能云)
综上可见,未来同时兼具类 ChatGPT 技术和搜索市场优势的百度,或将成为中国的“OpenAI+Google”,也将引发外界人士的重新评估与认识。