文心评分：百度ChatGPT版能力如何？

作者：与花辞酒发布时间：2023-03-21

人工智能的飞速发展，让“未来已来”成为流行语。从AlphaGo战胜围棋世界冠军，到AIContentCreation（AIGC）上市，短短7年时间，人类智能在退步。

（围棋世界冠军柯洁）

3月15日，ChatGPT-4发布。OpenAI发布的一份报告显示，ChatGPT-4在人类水平上进行了各种专业和学术测试。例如，他在模拟律师考试的考生中名列前10%。同时支持插入图片，可以识别图片内容。网友测试发现，仅通过提问也能直接写出网页设计和贪吃蛇游戏的正确代码。

3月16日，百度创始人、董事长兼CEO文心在发布会上展示了文心的各项功能，并宣布开始内测。记者立即通过内测合格。在本文中，记者将从多模态能力、语义理解、内容可靠性和心理成熟度等方面对文心的话进行评价。

多式联运能力

在发布会上播放的一段演示视频中，文心一言展示了文本转语音和基于文本的图像和视频生成的三种多模式选项。记者测试发现，目前只有文字转语音功能比较稳定可靠。

据记者测试，发布会上展示的“文字生成视频”功能目前基本无法使用。记者多次变换提问方式，甚至用与发布会相同的用词和话题向文心发出指令，但都得到“无法生成视频”的回答。从某种意义上说，文心在发布会上的视频生成演示也算是一种造假。

至于生成图像，我们必须使用“画...”这样的命令，而文心只需一个字就可以生成图像。也就是说，文心会反馈自己不具备生成图像的能力。记者认为，他创作的画作质量不错，但经常出现图文不符、画错图的情况；同时，操作微调困难，生成的图片无法编辑；而且画的清晰度也不好。高的。相比之下，使用开源的StableDiffusion可能是更好的选择。

语义理解和内容可靠性

生成的内容真假难辨，一直是语言模型的一大难题。众所周知，ChatGPT也经常一本正经的说废话。因此，文心义言在内容可靠性方面究竟强于还是弱于其他语言模型，处于何种水平，只能通过记者的亲测，难以科学判断。

但通过测试对比，记者逐渐意识到，电脑也有“答错”的门槛。因为一个“错误答案”意味着AI首先要正确理解问题本身。只有当他明白问题是什么时，他才能给出“编造的错误答案”。如果问题本身没有输出，答案只会是错误的。记者认为，文心一言在语义理解上与ChatGPT-3仍有差距。

（文心3月20日记者提问后的话语输出）

顺便一提，2022年11月，斯坦福大学大模型中心对全球30款主流大模型进行了综合评测，GLM-130B是亚洲唯一入选的大模型。最近这个系列的ChatGLM-6B也开源了，可以在普通电脑上部署运行。有兴趣的读者朋友在评论区反馈不错，小编也会和大家分享ChatGLM-6B的部署安装过程和使用心得。

心智成熟

种种事实表明，人工智能并非没有偏见，它映射的是数据偏见。AI在不同的人手中，也会扮演不同的角色。纵观人类历史，好技术被用来做坏事的例子数不胜数。因此，控制人工智能生成的内容，隔离不健康的色情、暴力和反社会内容非常重要。

记者重点关注了网友在ChatGPT和新必应上发现的问题，也对文心的话进行了测试。根据记者性格各方面的测试结果，他对敏感问题非常谨慎，目前没有涉及政治敏感话题。

同时，记者也考验了文心的同理心。

错误信念测试是一种心理实验，用来衡量儿童理解他人思想和信念的能力，被称为心智理论。4岁以下的儿童和黑猩猩不会始终通过此测试。研究表明，在使用英文时，ChatGPT可以比较稳定地通过测试。可见，文心目前还不具备稳定过关的能力。