百度文心一言评测：与真正的“对话式AI”还有很长距离

作者：36氪的朋友们发布时间：2023-03-17

3月16日下午，百度召开文心一言发布会，当天晚间，界面新闻拿到了这款大语言模型的测试邀请码，并进行了大量测试。

整体来看，百度这次略显匆忙推出的文心一言仍处于非常初级的阶段，跟“生产力”基本不搭边。无论是语义理解、持续对话、文生图还是数理推理能力，都处于比较死板的状态。

也就是说用户需要按照特定的提问方式，才能获得合格答案。它基本不允许用户自由对话，与真正的“对话式AI”还有很长距离，更像普通的搜索引擎产品，只是省略了用户自行筛选搜索答案的过程。

具体来说，文心一言面对单轮、简单问题时，能够直接给出答案。尤其是那些在百度搜索上能搜到的问题，文心一言会选取搜索引擎内容给予回答（并不保证正确性），在形式上做到了有问有答。

但进入多轮对话之后，文心一言的表现有明显下滑，经常“前言不搭后语”。当你对它的答案不满意，要求修订之后，文心一言经常会机械的承认错误，然后给出相同的错误答案。

百度在发布会上表示，本次发布的文心一言1.0版本包含文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成能力。

在界面新闻的测试中，这款产品的数理逻辑推算能力比较基础，面对复杂描述、需要逻辑理解的问题或者错误问题时，文心一言经常给出错误答案，并且不会纠正错误的问题。同时，该产品文生图的能力也有待加强，画风较为单一，无法根据用户的典型标签需求进行调整，甚至经常错误理解一些简单的标签。

与ChatGPT表现出的“乌鸦智能”（全球知名计算机视觉专家朱松纯教授曾说过乌鸦和鹦鹉的比喻，乌鸦具有“理解”能力，而鹦鹉的问答方式是“鹦鹉学舌”）相比，目前文心一言还停留在模仿阶段。

虽然李彦宏在发布会上将文心一言与ChatGPT直接对标，甚至对标GPT-4，但从实际体验来看，百度与微软（Open AI）的这两款产品差距极大，并不成称之为对手或者竞品。

李彦宏和王海峰也都在发布会现场承认，文心一言（1.0版本）在本次内测发布之前，并没有经过太多训练，未来需要很长时间的迭代。李彦宏主动提及，百度之所以这么快推出类ChatGPT产品，是因为内部业务团队和客户有需求。

或许是考虑到训练成本和产品成熟度问题，百度控制了本次测试的人员规模，未来文心一言的迭代效果如何，界面新闻会继续保持关注。

以下是部分测试的截图：

一、首先，提出简单的问题：《原神》和《王者荣耀》哪一个更受欢迎？

从结果来看，文心一言抓取了网络上的错误信息。首先，《王者荣耀》并没有超过51%的收入来自于中国以外的市场；其次，《王者荣耀》单款游戏第四季度收入48亿美元的信息也是错误的。此外，在答案格式上，文心一言还错误使用了“《》“。

我们点击“重新生成”按钮，希望文心一言再次回答，第二次的答案基本令人满意：

我们并没有就此停止，再次点击“重新生成”，新的答复如下：

答案引用的是2021年的旧数据，且数据本身存在不少问题。回答的内容也并不令人信服。

在另一个类似的话题结构上，文心一言的答案出现了重大失误：

上面这段答案里，错误不仅是划线的两处。这应该是文心一言在百度页面上抓取了一篇虚假内容所导致的。

在这里能明显反映出一个问题，那就是内容源的污染，会直接影响对话式AI产品的输出结果。

而有经验的网民都知道，目前在百度搜索的结果中充斥着大量不实信息和内容，如何避免它们污染文心一言大语言模型，无疑是百度在未来需要重点解决的问题之一。

据界面新闻了解，文心一言的数据来源是百度的自有生态，也就意味着它无法抓取各大app的内容。所以，移动时代的信息孤岛效应，也制约着文心一言后期的迭代效果。

再看另一个测试。发布会当天，百度的股价有明显下跌，我们向文心一言提出问题：

在涉及股价波动的问题上，它的回答基本符合预期。

二、在数理推算能力上，界面新闻向它提出了一个经典问题，并在其中去掉了一个重要条件，文心一言并未反应过来，同时给出了错误答案：

因为题干中缺少相对距离，并不能得出任何时间结果。文心一言给出的运算过程也完全错误。

在另一道基础数学题上，文心一言的表现不错：

在一个脑筋急转弯性质的数学题上，文心一言抓取了百度搜索页面的结果：

这也印证了，百度生态内部内容源的质量，能直接决定文心一言的回答质量。如何防止内容源被污染，尤为关键。

三、对于另一个颇受外界关注的文生图能力，界面新闻也做了不少测试，发现了一些问题。比如我们先是提出了一个简单需求：做一张天空的图片。

从结果来看，文心一言给出了天空+小孩的图片。在标签比较简单的时候，它生成的图片内容反而比较复杂，精准度并不高。

再看另一组文生图测试，标签为四组简单词汇，图片内容缺少两个元素。

继续展开第二轮对话，因为目前文心一言不支持修改原图，所以我们提出需求“重新画一张”，结果如下：

这是一个完全错误的答案。在多次测试中界面新闻发现，一旦对话进入多轮状态，文心一言通常会表现出力不从心的状态，无法正确理解上下文语意，再比如下面这次测试：

此外，我们还在测试中还发现，文心一样并不能准确的理解中文语意，有时理解能力甚至不如百度自家的搜索引擎，我们提出了下面的需求：

文心一样将“网红”理解为“红”（红色），对中文语意的理解本应该成为百度的优势。在这里放出百度搜索引擎的理解：

可以看出百度搜索对用户中文语意的理解能力明显正常很多。

四、在文学创作能力上，我们要求它模仿金庸和JK罗琳的风格，写一段孙悟空的故事，回答如下：

但就文本内容而言，是一段成形的故事。但两次回答的内容一字不差，可见文心一言目前做不到更深层次的文学内容理解，所以无法分辨金庸和JK罗琳的风格区别，只是将同一个模板反复套用。

考虑到它只是1.0内测版本的大语言模型，这些可以理解。

在文心一言的文案创作能力上，我们对它提出做一份《原神》和《王者荣耀》联动的宣传文案，答复如下：

我们得到了一篇比较简短标准的官方公告。鉴于我们在问题上并未给出更多限制条件，所以文案的内容也比较简单。

当我们提出要求其创作一首歌曲，名字为《只因你太美》，答复如下：

我们也让文心一言创作一篇论文，效果如下：

说实话，如果哪个大学生拿这篇论文交给老师，应该会被判不及格。北京某211大学教授新闻传播课程的教师对该结果的评价是：车轱辘话。

对于网络上很多用户喜欢的调戏式问题，我们也给文心一言准备了一些。比如下面这段完整的内容：

总体来看，如果是抱着寻求解放生产力的目的使用文心一言，那至少这个1.0版本是不合格的。如果对它抱有“未来可期”的态度，那可以继续关注百度在接下来的时间内对该产品的更新迭代。

众所周知，对大模型的投入需要克服巨大的资金和资源压力，同时也面临着商业化场景稀缺的现状，百度能否始终如一的坚持下去也值得关注。

就在今日，微软举办了一场AI发布会，宣布将推出名为Copilot的人工智能服务，它由OpenAI最新推出的GPT-4模型驱动。微软表示，它将适用于Word、PowerPoint、Excel、Outlook这些Microsoft 365商业软件，帮助用户生成文档、电子邮件以及幻灯片等。

如果微软最终将该产品大规模落地，那无疑是对生成式AI赛道的一剂强心剂，也遥遥领先于其它竞争对手，这个领域内的商业竞争才刚刚起步。

本文来自界面新闻，作者：崔鹏，36氪经授权发布。

百度文心一言评测：与真正的“对话式AI”还有很长距离

推荐体验

相关资讯

与牛共舞：文心一言距离OpenAI还有多远？

百度搜索整合文心一言，新增“AI对话”

文心一言与百度的新搜索时代

百度的文心一言如何？

聊聊百度的文心一言

近期资讯

掌握五笔输入法：提升打字效率与准确性的实用技巧

普及风暴：Galaxy Z Flip FE 现踪迹，三星最亲民折叠屏手机

小米15周年限定色！小米SU7“璀璨洋红”配色公布：今晚开售

OPPO ColorOS 15 1月升级名单公布涉及欧加13款机型

DisplayHDR True Black规范修订，OLED显示器又要迎来变化！

无锡普菲特取得轻量化承载的轮式机器人底盘机构专利，有助于避免障碍划伤底盘本体

掌握手机录制技巧，轻松记录生活中的美好瞬间与创意内容

前行者 S9 系列三模鼠标 1 月 6 日首销，99 元起

5年能100%国产化！华为利润最高的机型揭秘非Mate 60系

14000MB/s！致态TiPro9000系列固态硬盘开售：1TB仅需999元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响