“人工智能具有多种典型能力,理解、生成、逻辑、记忆是其中的核心基础能力,这四项能力越强,越接近通用人工智能,而大语言模型具备了这四项能力,为通用人工智能带来曙光。”8月16日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在WAVE SUMMIT深度学习开发者大会2023上表示。
图丨百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰(来源:资料图)
2023年3月,基于文心大模型百度推出全新一代知识增强大语言模型文心一言(英文名:ERNIE Bot)。在正式发布迄今的五个月时间里,文心一言的技术效果也有了较大提升。百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜表示,技术提升主要体现在以下几大方面,首先是基础模型的升级,其次是训练数据的优化,同时也包括训练方法的提升。
为进一步扩展大语言模型的能力边界,百度又发布文心一言的五大原生插件,分别是百度搜索、览卷文档、E言易图、说图解画和一镜流影。
发布五大文心一言原生插件,启动大模型插件邀请测试
具体来说,百度搜索能帮助提升文心一言的时效性和准确性;览卷文档是基于文档的交互拆解,能够帮助文心一言完成Word或PDF长文档的分析、摘要、润色、改写等方面的任务;E言易图能够通过数据洞察图表生成;一镜流影则能通过文字自动生成视频。
图丨百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜(来源:资料图)
在大会上,吴甜通过两个场景案例,对五大原生插件的能力进行了展示。在其中一个演示中,其先设定了为牛奶行业提供新产品的工作场景,并将有关牛奶的行业分析、消费者行为分析以及消费者洞察的文档上传至文心一言。在该场景下,文心一言能够自动阅读文档,摘要出其中的重点,并以图表的形式将想要关注的内容呈现出来。在这之中,文心一言用到了三大插件提供的功能,展现出协同性和连续使用的特点。
另外,吴甜也宣布正式启动大模型插件的邀请测试,大模型插件将依托文心一言的核心技术,为开发者提供插件开发工具集,促进信息服务类、工具类,以及基于大语言模型创新类的插件开发。
在百度打造的人工智能基础平台上,除了有文心大模型,还包括产业级深度学习开源开放平台飞桨。目前,随着飞桨生态的不断繁荣,其已经凝聚800万开发者,服务22万家企事业单位,创建80万个模型。而飞桨开发者社区AI Studio(中文名:星河社区),也成为中国最大的AI社区,凝聚了609万个开发项目。为了更好地激活百度大语言模型的插件生态和数据生态,以更广泛地创新并推出更多人工智能应用,百度此次宣布推出文心大模型“星河”共创计划,为抓住大模型时代的机遇赋能。
(来源:资料图)
“我们期待有更多的开发者和文心一言一起共建更多的大模型插件。”吴甜表示,“未来插件机制会成为支撑应用生态的重要机制。通过广泛的插件开发,一方面拓展了大语言模型的能力,另一方面也给其生态带来了很多新的落地应用工具,而这些最终都会体现在落地应用场景上。”
飞桨基础架构迎来全面升级,推出飞桨开源框架v2.5
如上所述,文心一言的能力正在持续不断地进步。这背后,离不开飞桨和文心大模型的支撑。这两者的协同优化,让文心大模型的训练速度达到原来的3倍,推理速度达到30多倍。
那么,在研发文心一言的过程中,飞桨又是如何更好地提升其效果和效率的呢?
在此次大会上,百度AI技术生态总经理马艳军发布飞桨开源框架v2.5,宣布基础架构迎来全面升级。
图丨百度AI技术生态总经理马艳军(来源:资料图)
此次技术框架的升级主要围绕两个核心方面。首先是设计并推出基于基础算子体系和组合算子体系的机制,从而构成一个底层内核,该内核能够对接底层的神经网络编辑器CINN,以更好地发挥通用性能的优势。与此同时,完善微分功能之后,使其能够支撑高阶微分和高阶自动微分,来编写各种各样使用高阶自动微分能力的算法。
在飞桨AI for Science能力升级方面,百度正式发布飞桨科学计算工具组件赛桨PaddleScience v1.0。在该版本中,针对相应的模块,百度做了进一步的封装,让深度学习开发者和科学计算开发者这两类用户可以更加方便地应用,比如基于约束构建的接口,定义微分方程的几何域初值和边界条件等。
此外,基于桨螺旋桨PaddleHelix,百度还发布了HelixDock蛋白-化合物构象亲和力预测大模型。据了解,该大模型是基于百度联合国家超算成都中心建设的7亿蛋白化合物仿真数据集训练而成,拥有良好的泛化性,已在三个数据集上得到验证。
深入企业办公领域,推出如流“超级助理”和基于大模型的开发工具
近年来,随着在线化和智能化的深入,企业办公领域迎来飞速发展。同时,以AI大模型为代表的第四次科技革命的推进,也推动生产力的变革和生产效率的大幅提升。
百度集团副总裁、百度集团首席信息官李莹认为,大语言模型具备理解、生成、逻辑和记忆的能力,能够为智能工作的方向带来诸多变革。
其主要拥有以下三个主要特点:第一,交互方式会变成以自然语言交互为主;第二,需求满足方式能做到端到端的极致满足;第三,工作流程和模式也会发生变化,最终带来基于AI原生构建的全新工作范式。
李莹表示:“在大模型时代,每一个产品都值得重做一遍。我们要有意识地培养AI原生应用的思维方式和理念,并用新理念去重构我们现在的每一个产品和每一项业务。”具体到办公场景,就要先思考问题的原点在哪这个根本问题,再思考用AI新技术实现的逻辑。
图丨百度集团副总裁、百度集团首席信息官李莹(来源:资料图)
基于此,百度发布基于文心一言能力构建的如流“超级助理”, 该产品是原有如流超级助手的升级版。两者的不同之处在于,助手更多的是工具属性,而助理则意味着更多的人性化、更多的主动性,与百度对该产品的期待相符,即希望打造一个人人可拥有的懂你、专业、实时陪伴的工作助理。
这也说明,该产品能够通过对员工习惯、偏好、工作模式等方面的持续学习,来实时了解员工的需求,为其提供所需的信息和服务,甚至主动帮助员工准备工作内容、制定规划等。
在此次大会上,李莹用如流“超级助理”进行了10多个演示,主要覆盖移动端任务执行、智能文档处理、会话式商业智能CBI和智能沟通四大场景。
此外,百度Comate系列产品也迎来全新升级,分别推出智能编程助手Comate X和Comate Stack工具套件。
作为商用全场景智能编程助手,Comate X具有多项能力,比如代码解释、代码生成、单元测试生成、文档生成、命令行生成等,因此既可以为开发者智能推荐基础的代码,又能为开发者提供研发全生命周期的服务。目前,该产品已能支持30多种编程语言和十多种IDE。
“Comate和Comate X可以理解为是一套工具,但是X具备更强的能力,是一个升级版。”李莹解释说,“事实上,我们早已对外开放了Comate和Comate X这套编码助手,只不过随着文心一言能力的提升,它变得更丰富和强大。”当前,Comate X已正式面向百度的合作伙伴开放,已有上百家合作伙伴正在和百度进行对接和试用。
Comate Stack工具套件,则是能支持AI原生研发全过程的工具。基于该工具,只需两步便可以完成超级助理插件的开发和上线,能够大大降低AI原生应用的构建难度,并提高应用效率。
如上所说,文心大模型和飞桨平台,是百度推进人工智能生态过程中必须夯实的基础。王海峰表示:“当时发布飞桨这个名字时引用了‘闻说双飞桨,翩然下广津’这句古诗。今天我想稍微改一下,就是改为‘文心加飞桨,翩然赴星河’。飞桨开发者社区AI Studio的中文名将命名为‘星河社区’。希望和所有的开发者一起,在飞桨和文心的加持下,共建星河社区、共赴通用人工智能的星辰大海。”