撰文 | 王 妤 语
题图 | 官方图片
中国版的ChatGPT终于来了。
3月16日下午,百度于北京总部召开邀请测试会,主题围绕新一代大语言模型、生成式AI产品文心一言。
百度创始人、董事长兼首席执行官李彦宏展示了文心一言文学创作、商业文案创作、数理推算、中文理解、多模态生成的能力。
百度同时公布了文心一言的邀请测试方案。3月16日起,首批用户即可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。
李彦宏表示,目前,大语言模型和生成式AI代表了一个新技术范式,是全球每家企业都不可错过的机会。百度文心一言定位于人工智能基座型的赋能平台,将助力金融、能源、媒体、政务等千行百业的智能化变革。
“百度希望和大家一起,推动人工智能技术进步,让所有人都能使用最先进的生产力工具,让所有人都能从中受益。”李彦宏说。
一、文心一言能做什么?
文心一言能做什么?这或许是大家最想知道的问题。
使用过ChatGPT的人应该都知道,ChatGPT在信息查询、文本输出、推理运算上可以说是如鱼得水,游刃有余。
不过,用中文提问ChatGPT,相比于英文而言,始终差一点意思。不少人吐槽,在和国外相比,在国内ChatGPT的体验感觉就像是mini版,回答问题的丰富度和内容准确性总是差一点。
好在,百度做出了中国版的ChatGPT。以上的种种,文心一言都可以全部现实。
文心一言搞“文学创作”很有一套。
图片来源:官方图片
在文心一言上输入的关键文词和主题,它可以自动生成符合语法和语义规范的短本。这不仅缩短了检索关键信息的时间,还可以给作家和文字工作者提供创业灵感和素材。
作为中国最大的搜索引擎,在搜索业务超过二十年积累,百度有世界上最大的知识图谱,这一切让文心一言回答准确性及生成结果的可信度得到提升。
文心一言也可以快速生成周报、新闻稿、宣传标语。
图片来源:官方图片
文心一言可以根据输入的关键词和主题,快速生成符合要求的文案,帮助企业进行品牌宣传和广告创意。另外,营销策划和推广,文心一言也是信手拈来。
文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。经过千亿级参数训练后的文心一言,不仅有强大的逻辑推理能力,在创意内容生成上有突出表现。
文心一言还可以轻松回答“鸡兔同笼”问题。
图片来源:官方图片
文心一言还具备了一定的思维能力,能够学会数学推演及逻辑推理等相对复杂任务。不过,李彦宏表示,对于该类问题,文心一言目前不一定能完全回答正确,但是未来经过更多的训练后,文心一言的思维能力会越来越强。
写诗作赋,文心一言也可以信手拈来。
图片来源:官方图片
作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力。也就是说,相比于ChatGPT,文心一言对中文的理解能力和把控能力更强。
另外,除了文本之外,文心一言还可以输出图片、视频等多模态内容,甚至还可以将文字直接用方言读出来。
相较文心一言,GPT4标榜的图片输入生成文本也未向公众开放,生成图片及视频能力也仅仅停留在展示页面,毫无诚意。
尽管文心一言在一定程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。但整体而言,这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。
二、为什么百度能做出“文心一言”?
ChatGPT火热背景下,包括百度、腾讯、阿里、字节跳动、360在内的国内公司都跃跃欲试,想要做出首个中国版ChatGPT。
目前来看,只有百度实实在在做出并公布了生成式AI产品——文心一言。百度做出文心一言,一点都不意外。
文心一言本质上就是大型语言模型。而要做出大型语言模型,钱(投入),算法、算力、应用、数据,这五个维度缺一不可。
钱,可以说是首要条件。资料显示,跑通一次100亿以上参数量的模型,算力至少需要1000张GPU卡。GPU芯片中领先者如A100售价达1万美元, 微软Azure云服务为ChatGPT布署了超过1万枚英伟达A100 芯片。即使不使用顶级芯片,按照一张GPU五万元的市场均价计算,1000张GPU意味着单月至少5000万的成本。业界测算,gpt-3单次训练成本至少460万元。
百度,在研发投入上一点也不含糊。前不久发布的百度2022年财报显示,百度2022年营收约1237亿元,净利润约207亿元,研发投入达214亿元,占百度核心收入22.4%,在全国科技公司里位于前列。
可以这样说,百度几乎是把一年赚的钱全用来做研发了。
更重要的是,百度同时在芯片、框架、模型和应用四层技术栈布局。在芯片层,百度自研AI芯片“昆仑”已经在多场景和搜索业务上部署实践;在框架层,百度飞桨深度学习平台能够做到下接芯片上承应用,支持模型的训练和开发。
图片来源:官方图片
在模型层,早些的时候,百度就已经对大语言模型上展开了相应的思考,并投入了大量的人力和物力,通过不断的算法改进和技术升级,逐步提高了自己的语言模型水平。
2019年,百度就推出了知识增强的语义理解框架ERNIE(文心大模型),2021年,百度又基于ERNIE邀请测试了全球首个百亿参数的对话大模型PLATO-XL。
经过多次迭代,ERNIE系列模型目前已经具备了较强泛化能力和性能,这也为大语言模型文心一言的推出打下了扎实的基础。
在应用层面,百度深度学习技术与场景融合创新,应用场景日渐丰富。
另外,百度在自然语言处理领域有着丰富的实践经验和技术积累。尤其是在数据处理上创新式采用了“超级分布式训练”技术,能够支持大规模数据处理和模型训练,为百度大语言模型的诞生奠基。
无论是在芯片层、框架层等技术架构方面的布局,还是在算力、数据等要素资源的投入,百度在国内AI领域始终处于领先地位。百度能够成为国内首家推出大语言模型文心一言的企业,主要还是源自百度多年以来的积淀。
三、推出文心一言,百度拥抱的是未来
文心一言能为百度带来什么?
在会上,百度表示多项主流业务将接入文心一言,包括百度搜索,以及基于百度智能云的智能语音助手小度、智能驾驶阿波罗(Apollo)等。
有相关专家表示,文心一言的出现,预计会给百度的三大业务线(移动生态为代表的基本盘、以智能云为代表的新兴业务、以智能驾驶和小度为代表的前沿业务)带来新的增长和想象空间。
此外,百度表示,文心一言的定位是人工智能基座型的赋能平台,通过新技术帮助企业创建最好的客户体验,让任何公司有机会离客户更近,从而深刻地影响千行百业中每一家公司,实现智能化变革、效率提升,获得更强的竞争优势,创造更大的商业价值。
截至目前,已经有650家企业宣布加入文心一言生态圈。对这些企业而言,接入文心一言后,有机会通过新的技术去创建最好的客户体验,从而比其他人更能抓住客户,获得更强的竞争优势。比如,航空公司、大型金融机构的AI客服和呼叫中心。
对于百度来说,伴随着文心一言的邀请测试,这些企业和用户开始使用后,将建立真实用户反馈、开发者调用和模型迭代的飞轮,文心一言会有更大的进步,更好地理解人的意图,生成符合人的价值观、表达习惯的回复。
ChatGPT和文心一言的出现,带来的是生产力的变革和提升。
“我们相信,人工智能会彻底改变我们今天的每一个行业。AI的长期价值,对各行各业的颠覆性改变,才刚刚开始。未来,将会有更多的杀手级应用、现象级产品出现,将会有更多的里程碑事件发生。”李彦宏说。
生成式AI产品作为未来产业、经济社会发展中一项变革性技术与关键力量,深刻影响着未来世界竞争格局,也将给AI行业带来罕见的发展窗口期。
无论是百度,还是其他公司,或者是深处技术变革漩涡中心的我们,都已经站在了变革的清晨。