天底下最惨的事情是什么?
在我的理解里,莫过于你辛辛苦苦正在追赶自己的对手,眼看着终于看到了他的背影,却发现他其实只是闲庭散步。
还没来得及说上一句话,他又一次小步快跑把你远远丢在了身后。
这就是最近百度文心一言正在经历的事情。
就在 3 月 16 日,百度发布了新一代大语言模型、生成式AI产品文心一言。
对此,百度创始人、董事长兼首席执行官李彦宏表示,文心一言的使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。
然而就在这之前的一天,在 ChatGPT 发布四个月并且展现了其惊人的学习能力之后,OpenAI 不声不响又带来了一次更新:GPT-4。
对此,OpenAI 倒是并不高调,他们在发布时表示:
“我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。”
但他们给行业带来的压力从来都不这么简单。在文心一言的发布会现场,李彦宏的语气里带着一份不太甘心的低调和谦虚:
“大家的期望值,是我们对标 ChatGPT,对标 GPT-4,这个门槛有点高。十月怀胎,我们就带大家看看这个 AI 大模型文心一言长什么样。”
伴随着大家的调侃,GPT-4 和百度文心一言之间的比较,很显然没法省略过去,毕竟两者都是多模态大模型,使用场景和适配能力也有相当多的重合。而流传出来的调侃图,也可以成为百度文心一言目前紧张现状的一个浓缩。
不过,单纯从李彦宏在发布会现场演示用 demo 的各种功能来说,我们并没有办法简单定论百度文心一言和 GPT-4 孰优孰劣。
尤其是现场在文学创作、中文理解等方面,百度文心一言同样拥有足够出色的表现。
不管是回答问题还是语言组织,其实都还是达到了大家的预期。
相比之下,GPT-4 则拥有更多考试的背书。根据测试,它通过了模拟律师考试,分数能排在在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。在 SAT 考试方面,GPT-4 的分数增加了 150 分,现在能拿到 1600 分中的 1410 分,在 SAT 阅读考试中和 SAT 数学考试中,都能达到领先的排名。
这或许就是目前大家对于 GPT-4 有更多认同感的原因,毕竟用考试来评价能力也是人类社会比较通行的一个标准。而仅仅从百度文心一言在现场展现出来的部分,大家很难对他的具体能力有足够全面的认识。
当然,目前其实已经有不少媒体尝试获得了文心一言的内测资格,并且他们用同样的问题来观察两者在回答上的差别。
但我个人觉得这样评测意义不大,但凡是我们目前可以想到的测试部分,对于 GPT-4 和百度文心一言来说着实都不是什么复杂的问题,还只是停留在和之前 ChatGPT 类似的环节。
就拿 GPT-4 来说,其实相比 ChatGPT,它已经可以开始处理图像,即可以对输入介质的图形,进行图像和文字的双重认知。尽管输入权限还没有全部公开,但根据国外媒体的报道来说,这一点并没有什么值得怀疑的。另外一个很重要的地方是,GPT-4 似乎更多地开始明白可以“开点玩笑”了,这让他更像是个真实的、具有思想的人,具有别人无法复制的思维方式和幽默感。
当然了,不管是文心一言还是 GPT-4,其实都有着足够的、比人类更加出色的“一本正经的胡说八道”的能力。从我们之前经历过的一些情况看,他们的可信赖度仍然是有明显缺失的,虽然他们的确可以比我们更快速更直接地产出反馈——你甚至想不到,它会大胆地编造一些没有发生过的事实,或者是出现推理的错误。
如果鲁迅先生依旧在世,搞不好他会高频次地敲打 GPT-4 或是文心一言,然后大声告诉他:“我没说过这个话。”
对此,OpenAI 尤其强调“在使用它(GPT-4)时需要附加诸如人工审查等环节,如果是对精确度要求非常高的环境里,甚至要避免使用它。
需要说明的是,虽然大家广泛看好 GPT-4,而现有数据和报道也显示了两个产品存在一些代际差,尤其是文心一言的产品发布会其实是预先录制了 demo 进行的演示,但我仍然不想对他们的优劣进行结论性的推论。
原因很简单,用小学一二年级的算术题去判断哪个数学家的能力更强原本就是极度荒谬的事情,在续写故事、应答菜谱或者是生成商业文案的环节上的差别,与其说是两个产品之间的能力差距,还不如说是两个 AI 之间的性格不同和表现习惯差别。
在这个层面上,我们倒是更加希望能有人给出更加完善和科学的标准,为我们判断 AI 的学习能力给出最终的落实标准。