文心一言对比ChatGPT：百度催生“不完美小孩”

作者：腾讯新闻棱镜深网发布时间：2023-03-16

3月16日，百度发布大语言模型、生成式AI产品“文心一言”，成为抢在谷歌、Meta（原Facebook）等科技巨头前，继微软Bing（必应）后第二家发布大语言模型的互联网大厂。

“很多人都问过我，你们为什么现在发布，你们是不是真的ready了。”百度创始人、董事长兼CEO李彦宏开场回答了百度为什么要在现在发布文心一言这一问题。简而言之，有三点理由：

1.文心一言是百度过去数年技术投入的自然结果，文心大模型早于2019年就已发布；

2.百度自己的业务有使用的需求，百度的合作伙伴也有急迫的需求；

3.发布后大模型会获得真实反馈，能力提升更快。

“从我的体验来说，文心一言不能说是完美。”李彦宏坦言，文心一言的能力还在不断的完善过程中，会有惊喜也会有错误，但未来一定会是日新月异的发展速度。“我们都希望文心一言能快点成长，让所有的人都能从中获益。”

据百度官方，自2月份百度官宣“文心一言”以来，已有超过650家企业宣布接入文心一言生态。另外，3月16日起，百度文心一言将进行首批用户邀请，受邀用户可通过邀请测试码进行体验；百度智能云即将面向企业客户开放文心一言API接口调用服务；普通用户也可通过百度智能云官网预约加入文心一言服务测试。

文心一言发布会上，李彦宏从文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五个使用场景演示了文心一言目前的能力。然而资本市场对发布会效果似乎并不满意，发布会进行过程中，百度集团港股一度跌超10%。

提前录制的现场演示

与昨日Open AI发布GPT-4时的现场演示不同，文心一言演示的是提前录制好的演示内容部分。在GPT-4的衬托下，文心一言的表现确显差强人意。

在语言类任务的测试中，GPT-4已经可以在律师考试、GRE Quantitative、LSAT等测试中获得较为优异的成绩，分数在应试者的前10%左右。GPT-4甚至具备“幽默感”，能够读懂表情包为什么可笑，华泰证券认为，理解表情包表明GPT-4能够在一定程度上读懂隐喻、抽象和类比，表明其具备更广泛的常识。长期来看，具备常识是实现通用智能的重要一环。

而文心一言目前展示的相关能力，还在回答《三体》的作者是谁？电视剧角色扮演者是谁？等事实性问题。

在面对“如何续写《三体》？于和伟和张鲁一有哪些共同点？”等问题时，在笔者看来虽然刻板，但从目前展示出的相关能力来看，基本能达到ChatGPT（GPT-3.5）所呈现出来的效果。

在数理推算的测试中，GPT-4通过了美国大学入学考试 SAT，满分800分的数学测试拿到了700分，超过了89%的人类。甚至可以按照自己的人设循序渐进的引导人类学习线性方程式。

而目前文心一言在数理推算方面仅展示出了解决“鸡兔同笼”经典题的能力。

在多模态生成方面，GPT-4可以在10秒内将一个用纸笔画出的粗略网站草图迅速生成现实，也可以通过一张图片识别出里面的食材并生成食谱。文心一言目前展示出来的能力则在根据文字生成图片及视频上。

值得注意的是，GPT-4在多国语言测试中均有良好表现，能读懂法语写成的物理题，中文普通话在测试中的准确度也有80.1%。

不可否认，文心一言所展现出来的能力确不如GPT-4，但相比ChatGPT发布前的人工智能表现已有较大提升。

而作为一项可能颠覆传统搜索行业的技术，文心一言对百度的重要性不言而喻。

“百度NLP（Natural Language Processing 自然语言处理）的人几乎全部调去做一言了，李彦宏亲自挂帅。”一位接近百度的人士告诉《深网》，工作地点位于深圳的百度NLP也被临时调去了北京。

在文心一言发布前两天，《深网》探访山西省阳泉市百度智算中心见到了文心一言的部分“心脏”——一间在2月底升级完成的服务器组机房。建成后服务器连日测试，探访当天，服务器仍压力测试到了凌晨4点。

“看来百度真是下血本了，还专门建一个专用机房。”上述人士向《深网》说，百度现有的数据中心用于训练文心一言也是没问题的。

《深网》了解到文心一言服务器组机房一部分在阳泉智算中心计算（其他智算中心也在支持），阳泉机房内共有超200个机柜位。此前《财经十一人》曾测算，一台搭载英伟达A800 GPU的服务器成本超40万元。故文心一言机房成本或在亿元左右。（因目前暂不确定文心一言机房所用的GPU型号及数量，预估成本仅供参考。）

百度智能云云计算产品解决方案和运营部总经理宋飞称，不管是针对文心一言还是其他，打造智能计算的基础设施肯定是有差别的，“我们的目标就是满足使用需求”。

IT领域大量岗位或被淘汰

不论是百度的“文心一言”还是Open AI新发布的“GPT-4”，本质都是大模型。

“（如果）把机器学习比喻成大学生学习，大模型就相当于提供了一批非常优秀的高中生，他们已经具备了很好的通用能力。”宋飞称，企业应用大模型就相当于高中生选专业，在一个专业领域再补充学习专业知识即可。以前的模型开发相当于从小学开始培养，“这个时间和成本是不一样的。”

相比起早期需要大量人工标注数据“投喂”AI的训练模式，如今大模型已经可以使用无标注数据进行训练，且有自监督学习的能力。“大模型带来的是模型效果最优，对于场景标注数据更少。”百度智能云AI平台部解决方案架构师孙健说，在产业应用大模型的过程里面，用得越多，大模型也会越来越“聪明”。

业内预测，随着大模型能力的不断发展，大模型将出现“涌现”现象。

宋飞解释称，人工智能的核心思想就是模拟人脑的思考过程，人脑远比如今最大的大模型还要复杂几十倍上百倍，因此未来发展还会有大的变化。“人类也是因为脑容量到了一定程度后，有智慧或者说意识的产生，这些大模型也是类似的逻辑。”

“在科学领域这种现象叫涌现。通俗一点来讲就是开窍了。”孙健称，当参数规模到达一定量的时候，大模型或将能具备一定泛化、推理跟逻辑能力。

2022年，Google、斯坦福大学、北卡教堂山分校、DeepMind联合发表的论文《Emergent Abilities of Large Language Models》中，也提到了“随着模型变大，很多任务性能都能可预测的提升，但一些任务不是这样的。”即从量变到质变，出现“相变”，从而使大模型有了智能上的飞跃。

美国纽约州立大学石溪分校计算机系和应用数学系终身教授顾险峰教授称，这和婴儿学习语言类似。牙牙学语的时候记忆了词汇，但无法理解，讲的话也常常词不达意。但随着频繁使用语言和大人交流，接触文学作品、影视节目，词汇间的搭配日益固定下来，表达日益精准，“终于有一天开始有了自己特有的文采。”

论文《Emergent Abilities of Large Language Models》研究中考察了小样本提示任务中各种模型的涌现能力

“涌现”现象放在自然界里，则类似蚁群和黏菌。单独一个蚂蚁没有智力行为，但聚在一起形成蚁群则像一个有智慧的小型社会，有严格的分工。黏菌是一种单细胞微生物，但聚在一起时可以避开危险，轻松走出迷宫，甚至能为一个大城市设计复杂的交通网络。

因此有开发者认为，涌现不是“人多力量大”，也不是“量变产生质变”，它是一个“一加一大于二”的现象，更像是一种群体的“进化”。

大模型“涌现”现象出现的那天，或许将是强AI诞生之日。技术变革势必带来行业变革，正如工业化后大量手工岗被淘汰。顾险峰教授认为，在过去几十年的IT领域，大量的工作是“重复发明轮子”，AI的发展会大量减少这个层次的工作机会。年轻人更应该花时间学习现代数学等基础科学，“通常现代数学需要更加抽象的思维，概念理解的难度远超过工程类的课程。”

“如果我们问ChatGPT有关计算机编程的工程方面的问题，ChatCPT对答如流；如我们问ChatGPT关于代数拓扑、几何方面的算法，ChatGPT无法给出令人满意的回答。”顾险峰教授称，可以预见，AI的发展迫使人类从事更加复杂深刻、更加需要创造性的智力劳动，而这需要更加先进现代的基础理论作为支撑。

本文来自微信公众号“深网腾讯新闻”（ID:qqshenwang），作者：程潇熠，36氪经授权发布。

文心一言对比ChatGPT：百度催生“不完美小孩”

提前录制的现场演示

IT领域大量岗位或被淘汰

推荐体验

相关资讯

文心一言对比ChatGPT：百度催生“不完美小孩”｜深网

百度文心一言，还是个不完美小孩

百度文心一言，还是个不完美的“小孩 ”

中国版ChatGPT｜百度文心一言，还是个不完美的小孩

百度文心一言对标ChatGPT，李彦宏说还不完美，股价下跌10％

近期资讯

大模型新技术新产品在广州海珠实现首发首推

AI时代关注员工开不开心很重要

曝天玑9500最高频率仅4GHz 还不敌骁龙8至尊版

六年攻关破解世界性难题

无锡经开区：厚植创新沃土积蓄发展澎湃动能

国产阻燃材料突围记：北工商科研团队深耕二十载从“追跑”迈向“领跑”

全球最大！深地液氮低温实验平台开始调试运行

推动科技成果从实验室走向生产线（改革一线·怀川亮点）

雷军：小米SU7不只扛住了百万网友的严选在三大方面行业领先

智能家电跃上风口

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响