3月16日下午,百度召开文心一言发布会,当天晚间,界面新闻拿到了这款大语言模型的测试邀请码,并进行了大量测试。
整体来看,百度这次略显匆忙推出的文心一言仍处于非常初级的阶段,跟“生产力”基本不搭边。无论是语义理解、持续对话、文生图还是数理推理能力,都处于比较死板的状态。
也就是说用户需要按照特定的提问方式,才能获得合格答案。它基本不允许用户自由对话,与真正的“对话式AI”还有很长距离,更像普通的搜索引擎产品,只是省略了用户自行筛选搜索答案的过程。
具体来说,文心一言面对单轮、简单问题时,能够直接给出答案。尤其是那些在百度搜索上能搜到的问题,文心一言会选取搜索引擎内容给予回答(并不保证正确性),在形式上做到了有问有答。
但进入多轮对话之后,文心一言的表现有明显下滑,经常“前言不搭后语”。当你对它的答案不满意,要求修订之后,文心一言经常会机械的承认错误,然后给出相同的错误答案。
百度在发布会上表示,本次发布的文心一言1.0版本包含文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成能力。
在界面新闻的测试中,这款产品的数理逻辑推算能力比较基础,面对复杂描述、需要逻辑理解的问题或者错误问题时,文心一言经常给出错误答案,并且不会纠正错误的问题。同时,该产品文生图的能力也有待加强,画风较为单一,无法根据用户的典型标签需求进行调整,甚至经常错误理解一些简单的标签。
与ChatGPT表现出的“乌鸦智能”(全球知名计算机视觉专家朱松纯教授曾说过乌鸦和鹦鹉的比喻,乌鸦具有“理解”能力,而鹦鹉的问答方式是“鹦鹉学舌”)相比,目前文心一言还停留在模仿阶段。
虽然李彦宏在发布会上将文心一言与ChatGPT直接对标,甚至对标GPT-4,但从实际体验来看,百度与微软(Open AI)的这两款产品差距极大,并不成称之为对手或者竞品。
李彦宏和王海峰也都在发布会现场承认,文心一言(1.0版本)在本次内测发布之前,并没有经过太多训练,未来需要很长时间的迭代。李彦宏主动提及,百度之所以这么快推出类ChatGPT产品,是因为内部业务团队和客户有需求。
或许是考虑到训练成本和产品成熟度问题,百度控制了本次测试的人员规模,未来文心一言的迭代效果如何,界面新闻会继续保持关注。
以下是部分测试的截图:
一、首先,提出简单的问题:《原神》和《王者荣耀》哪一个更受欢迎?
从结果来看,文心一言抓取了网络上的错误信息。首先,《王者荣耀》并没有超过51%的收入来自于中国以外的市场;其次,《王者荣耀》单款游戏第四季度收入48亿美元的信息也是错误的。此外,在答案格式上,文心一言还错误使用了“《》“。
我们点击“重新生成”按钮,希望文心一言再次回答,第二次的答案基本令人满意:
我们并没有就此停止,再次点击“重新生成”,新的答复如下:
答案引用的是2021年的旧数据,且数据本身存在不少问题。回答的内容也并不令人信服。
在另一个类似的话题结构上,文心一言的答案出现了重大失误:
上面这段答案里,错误不仅是划线的两处。这应该是文心一言在百度页面上抓取了一篇虚假内容所导致的。
在这里能明显反映出一个问题,那就是内容源的污染,会直接影响对话式AI产品的输出结果。
而有经验的网民都知道,目前在百度搜索的结果中充斥着大量不实信息和内容,如何避免它们污染文心一言大语言模型,无疑是百度在未来需要重点解决的问题之一。
据界面新闻了解,文心一言的数据来源是百度的自有生态,也就意味着它无法抓取各大app的内容。所以,移动时代的信息孤岛效应,也制约着文心一言后期的迭代效果。
再看另一个测试。发布会当天,百度的股价有明显下跌,我们向文心一言提出问题:
在涉及股价波动的问题上,它的回答基本符合预期。
二、在数理推算能力上,界面新闻向它提出了一个经典问题,并在其中去掉了一个重要条件,文心一言并未反应过来,同时给出了错误答案:
因为题干中缺少相对距离,并不能得出任何时间结果。文心一言给出的运算过程也完全错误。
在另一道基础数学题上,文心一言的表现不错:
在一个脑筋急转弯性质的数学题上,文心一言抓取了百度搜索页面的结果:
这也印证了,百度生态内部内容源的质量,能直接决定文心一言的回答质量。如何防止内容源被污染,尤为关键。
三、对于另一个颇受外界关注的文生图能力,界面新闻也做了不少测试,发现了一些问题。比如我们先是提出了一个简单需求:做一张天空的图片。
从结果来看,文心一言给出了天空+小孩的图片。在标签比较简单的时候,它生成的图片内容反而比较复杂,精准度并不高。
再看另一组文生图测试,标签为四组简单词汇,图片内容缺少两个元素。
继续展开第二轮对话,因为目前文心一言不支持修改原图,所以我们提出需求“重新画一张”,结果如下:
这是一个完全错误的答案。在多次测试中界面新闻发现,一旦对话进入多轮状态,文心一言通常会表现出力不从心的状态,无法正确理解上下文语意,再比如下面这次测试:
此外,我们还在测试中还发现,文心一样并不能准确的理解中文语意,有时理解能力甚至不如百度自家的搜索引擎,我们提出了下面的需求:
文心一样将“网红”理解为“红”(红色),对中文语意的理解本应该成为百度的优势。在这里放出百度搜索引擎的理解:
可以看出百度搜索对用户中文语意的理解能力明显正常很多。
四、在文学创作能力上,我们要求它模仿金庸和JK罗琳的风格,写一段孙悟空的故事,回答如下:
但就文本内容而言,是一段成形的故事。但两次回答的内容一字不差,可见文心一言目前做不到更深层次的文学内容理解,所以无法分辨金庸和JK罗琳的风格区别,只是将同一个模板反复套用。
考虑到它只是1.0内测版本的大语言模型,这些可以理解。
在文心一言的文案创作能力上,我们对它提出做一份《原神》和《王者荣耀》联动的宣传文案,答复如下:
我们得到了一篇比较简短标准的官方公告。鉴于我们在问题上并未给出更多限制条件,所以文案的内容也比较简单。
当我们提出要求其创作一首歌曲,名字为《只因你太美》,答复如下:
我们也让文心一言创作一篇论文,效果如下:
说实话,如果哪个大学生拿这篇论文交给老师,应该会被判不及格。北京某211大学教授新闻传播课程的教师对该结果的评价是:车轱辘话。
对于网络上很多用户喜欢的调戏式问题,我们也给文心一言准备了一些。比如下面这段完整的内容:
总体来看,如果是抱着寻求解放生产力的目的使用文心一言,那至少这个1.0版本是不合格的。如果对它抱有“未来可期”的态度,那可以继续关注百度在接下来的时间内对该产品的更新迭代。
众所周知,对大模型的投入需要克服巨大的资金和资源压力,同时也面临着商业化场景稀缺的现状,百度能否始终如一的坚持下去也值得关注。
就在今日,微软举办了一场AI发布会,宣布将推出名为Copilot的人工智能服务,它由OpenAI最新推出的GPT-4模型驱动。微软表示,它将适用于Word、PowerPoint、Excel、Outlook这些Microsoft 365商业软件,帮助用户生成文档、电子邮件以及幻灯片等。
如果微软最终将该产品大规模落地,那无疑是对生成式AI赛道的一剂强心剂,也遥遥领先于其它竞争对手,这个领域内的商业竞争才刚刚起步。
本文来自界面新闻,作者:崔鹏,36氪经授权发布。