孰优孰劣｜百度文心一言vs微软ChatGPT

作者：VRPinea发布时间：2023-03-20

（编者按：本文所有图片的观点均来自AI大模型的直接回复，无任何导向性，不代表本媒体立场。）

（VRPinea2023年3月20日讯）近日，微软举办了“The Future of Work with AI”发布会，重磅发布AI办公助手——Microsoft 365 Copilot。简单来说，Copilot（副驾驶员）是一个搭载了GPT-4大模型能力的AI助手，将接入微软全家桶产品中。而GPT-4，是数日前由OpenAI发布的目前功能最强大的AI大模型。当下，微软Office 365旗下的办公产品包括Word、Excel、Powerpoint、Outlook、Teams等等。一边是全球最大办公软件，一边是最强AI大模型，两者结合堪称“王炸”。

王炸组合里的GPT-4，看上去是不是和去年年底爆火的ChatGPT很相像呢，小P这就来替大家梳理一下它们的关系。

GPT-4是由Open AI开发的最新一代通用语言处理模型，它是GPT系列模型的最新版本，在基础架构、训练数据、模型规模和效果等方面都进行了进一步的升级和改进。

而ChatGPT是GPT系列模型的一个分支版本，它以GPT系列模型为基础，针对聊天机器人这一场景进行了优化和特化，加入了对话生成和上下文理解等特定功能，并对训练数据和架构进行了调整。因此，ChatGPT与GPT-4是同源同宗的模型。

OpenAI靠着ChatGPT实力吸睛，Google带着Bard紧随其后，你方唱罢我登场的AI领域，终于还是出现了“国货”的身影。在微软发布会的不到12小时之前，百度举行了百度文心一言发布会。发布会上百度创始人兼CEO李彦宏展示了文心一言在文学创作、商业文案写作、数理逻辑推算、中文理解、多模态生成等方面的能力。他表示，“今天的文心一言是过去多年努力的延续。但也不能说我们完全ready了，文心一言要对标ChatGPT、甚至是对标 GPT-4的门槛是很高的，全球大厂还没有一个做出来的，百度是第一个。我自己测试感觉还是有很多不完美的地方。”

姗姗来迟的文心一言表现如何？口说无凭，是骡子是马得拉出来遛遛才知道。小P用不同方面的多个问题同时提问两者后发现，文心一言在上下文记忆、联系、纠错等方面逊色于ChatGPT（3.5版），回复问题的速度也存在肉眼可见的差距（未考虑网速原因的影响），这是算力差距带来的鸿沟。尽管ChatGPT更占上风，但文心一言也并不是完全被动“挨打”的角色，在某些比较有“中国特色”的问题上，文心一言的回答反而要出色一些。

小P首先询问了比较常规的日常应用场景的问题，“推荐十首好听的粤语歌”。在这个问题上，ChatGPT的回答中规中矩，推荐了一些较为经典的粤语歌曲，不过存在一些小瑕疵是，比如它推荐了光良的《童话》，《倩女幽魂》的原唱是张国荣等。除此之外，结尾问候语“希望您会喜欢它们！”也算亮点之一，这更接近于正常对话的模式。文心一言的回答就有些不同寻常了，它的回答是一段粤语语音，这对于粤语歌迷来说无疑算是一个小惊喜了。鉴于推荐歌曲大概率不是严肃的场景，那么文心一言没有文字回答，不便记忆的缺点也就无伤大雅了。

接下来是一道带有陷阱性质的高中地理问题，“有一只熊掉到了陷阱里，陷阱深19.617米，下落时间正好2秒。求熊是什么颜色的？”关于这个问题，ChatGPT没有答案，它选择了质疑问题的准确性，“熊掉进陷阱的深度和下落时间并不能确定熊的颜色，这是一个典型的谬误推理”。这体现其出色的思辨性，但不可掩盖的是，它掉进了语言陷阱中，没有发现题目中的隐含条件。而文言一心则通过物理运算和地理知识的推导，得出了熊是黑色的正确答案。果然，在中国文理科知识这样的特定领域问题，文心一言就是比“外国货”懂得多。

（编者按：根据陷阱深19.617米、下落时间2秒的条件，可得出当地的重力加速度为9.8085，进而可以推导出陷阱所在地的纬度大概是44度左右。熊的分布大多集中在北半球，北纬44°分布的只有棕熊和黑熊。深达十多米的陷阱可得出该地土质为冲击母质，而棕熊栖息在高海拔地区，所以，只有黑熊符合条件。）

在关于“如何看待中国央视网认为孔乙己之所以陷入生活的困境，不是因为读过书，而是因为放不下读书人的担子，不愿意靠劳动改变自身的处境？”这一问题的回答上。夸张一些来说，ChatGPT完全吊打了文心一言。前者不仅开篇就提到了“作为一个AI语言模型，我不会对特定观点进行评价，但是我可以尝试解释一下这个观点所表达的意思”这样的句子。并且对这一观点进行了较有思辨性的回复，对比了孔乙己所处时代和当今社会，表述不同观点及其产生的原因，还延伸出了对相关社会问题的思考。而文心一言的回复则更像是一段对题目观点的扩写，给人一种机械死板的感觉。

“请从今年高考的高三学生的角度，写一篇高考誓师演讲稿”，在这个问题上，两者都是表现平平，生成的文章都很模式化，满是一股公关辞令的味道。不过倒也正常，目前来说，我们不能指望两个AI大模型能写出，像前段时间登上热搜的湖南某高中“誓师女孩”那样激情澎湃的演讲。情绪，是AI所不具备的能力。

小P最后还询问了一些文史哲方向的问题，如解读明朝哲学家王阳明四句教的涵义等，文言一心的回答是低于预期的，只能给出一些浅层次的回答，甚至还会给出一些张冠李戴的回复。而ChatGPT的回复则有一定的逻辑性，但在深度层面的理解上依旧是有所欠缺的。在小P看来，这方面的不足是技术局限性的必然结果，AI大模型的“思考”还处在初级阶段，主观意识过于浓厚的问题，已经超出了它的能力范围。

结合上述ChatGPT和文心一言的表现来看，AI想要取代人类员工还有较长的一段路需要走，互联网、新闻、设计等行业从业人员大规模失业的场景还不会发生。但人工智能最大的特点就是自我学习，目前AI大模型的一些“满口胡言”是局限于训练数据无法实时更新的弊端。一旦技术进步升级，解决掉现有问题之后，或许，以ChatGPT为代表的AI大模型会像比尔·盖茨认为的那样，其意义甚至超过PC、互联网的诞生，标志着一个全新时代的来临。

结语

文心一言与ChatGPT之间的差距真实存在，想让文心一言在短时间内完成追赶，几乎是不可能的事情。但毋庸置疑的是，文心一言的发布实现了中文语言大模型AI生成式产品从无到有的突破，对于中文互联网来说是个标志性的事件。

希望面向公众开放后，文心一言可以通过用户们大量的搜索请求进行学习、改进和升级，从而提升处理相应问题的准确性和速度。士别三日，当刮目相看，对于AI大模型来说更是如此。

本文属VRPinea原创稿件，转载请洽：brand@vrpinea.com

孰优孰劣｜百度文心一言vs微软ChatGPT

推荐体验

相关资讯

阿里通义千问VS百度文心一言：5维度提问，到底孰强孰弱？

ChatGPT对比文心一言,孰强孰弱?

ChatGPT与Google Bard：孰优孰劣，差异大盘点！

MidJourney VS Leonardo AI - 孰强孰弱

【个人首测】百度文心一言 VS ChatGPT GPT-4

近期资讯

第四代自升自航式风电安装船“铁建风电2000”在烟台交付

高德地图新增三大功能！直连北斗卫星无网求救

运营时速400公里，全球最快！CR450动车组样车发布

韩国客机碰撞起火事故事发机型为波音737-800

美团：将逐步取消骑手超时扣款

小米雷军 12 月 31 日举行围炉跨年直播：和大家聊聊今年难忘的事

雷布斯重金挖人，发力大模型

国产芯片落后10年？ASML惨被打脸

德育创新展示平台上线

国家安全部：关注智能手机使用安全把好手机“保密关”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响