原创 | 网罗灯下黑
wldxh8
最近,百度在苹果 App Store 悄咪咪上线了自家的「文心一言」,一直挂在「效率」免费排行榜前十的位置(估计快了)。
说实话,今年国产大模型落地不少,但咱们还真没有正儿八经的测试过,一方面是在通用大语言模型这里,领跑者收获了全部目光,凭空拔高了预期;另一方面则是,作为一个老倒霉蛋儿,国内这些大模型的内测资格是真滴难搞。
不过还好,虽然几个月前首次内测没搞到,但排了这么长时间的队,也算是终有所得。
关于「文心一言」的 App 版还有个小插曲,几个月前百度因此控告过盗版,不过这也算 App Store 里的老传统了。
话说回来,对于这种「新鲜出炉」的工具,还是需要拉出来溜溜,至于评价,俩字:难评。
文字对话
整体来看,文心一言的 App 分成「对话」和「发现」两个板块,前者就是多轮对话,后者则是内置好参数的一个个小对话 bot。
所以先测对话,我请出了之前用来分辨 GPT-3.5 和 GPT-4 的经典三问。
一问:昨天的当天是明天的什么?
文心一言规避了想象中的答案,但又挑不出来毛病。
我想大概是我问的有问题,继而更换了两次问法,嗯,和 GPT-3.5 一个水准。
二问:树上 9 只鸟,打掉 1 只,还剩几只?
这道题的难点不是计算,而是能不能分情况讨论,意识到现实中其他鸟会飞走,文心一言很明显是当数学题来做了,嗯,和 GPT-3.5 一个水准了。
三问:鲁迅为什么暴打周树人?
这次文心一言的回答很完美,清晰的判断出了问题里的雷。
不过值得惊喜的是,除了经典三问,像以前一问就错的谐音双关梗,现在的文心一言可以轻松拿下。
当然,文字对话可不是今天的重点,重点是文心一言 App 支持的多模态输入,说人话就是能看懂图了。
图片对话
图片多模态输入这个功能,OpenAI 那边画饼已久,咱不是幸运儿自然没机会体验,文心一言的抢跑是值得点赞的。
效果嘛,咱们一起来看测试。
从网上找了张相拥在一起的男女,文心一言很轻松的判断出了两人的关系:
发了张鸟巢,也能认出这个标志性建筑:
发了张表情包,也识别出了汤姆和杰瑞的出处,虽然理解上有些生硬,但整体也不算错。
但也有问题,比如这张人眼很好分辨的东方明珠,文心一言点出了黄浦江畔,却没办法确定具体位置。
好事多磨,耐心多追问几句,文心一言是真的忽略了东方明珠。
至于你说图里的文字能不能识别?我找了个表情包,还专门点了下文字很重要。
没想到在文心一言的回答里看到了「麦当劳」三个字,本以为它能识字,但追问下去,真正暴露麦当劳信息的,是图中右下角的「M」。
当然,我硬问下去,生成式 AI 不可避免的幻觉就该来了。
关于图片输入,评价是有用,但没那么有用,不过和不能识图的 GPT-3.5 比,可谓是吊打了。
在「对话」这个板块,现阶段的文心一言有明显进步,但你落地到应用,还得看「发现」。
发现
就像前面说的,发现里是 AIGC 的大杂烩,是预设了参数的对话机器人,11 个大场景,120 个小助手。
特色是有特色了,但总觉得这是一个实验性质的功能,说人话就是还有进步空间。
比如「华山论剑 PK 剧情」和「10 年后苏醒的我」这两个小助手,以为可能是个文字接龙游戏,但只是预设好的扩写。
而且就拿 PK 说,我前后叫了「wldxh、小明、小红、小黑」等等,虽然过程可能有压力,但这场华山论剑我就没输过,主打一个有黑幕,反手一个高情商。
所以角色扮演、娱乐性质的小助手咱就不测了,除非你喜欢诸葛亮教你学习。
在「职场」里有一个「Excel 公式生成」小助手,这个功能算是挺顶的,把难搞的公式以提问的形式让 AI 解决,而且有公式、有解释,很到位了。
同样「职场」,里面还有「代码解释」的小助手,我把以前分享过的油猴脚本发给了它,解释的没毛病,但术语还是多了些,代码小白想用起来,可能需要连续多问几嘴。
至于绘画,文心一言的绘画能力绝对是被一割再割,哪怕你再熟悉 SD 和 MJ 的提示词,也难在这里大战手脚,可以一试,但不值得细玩。
结语
差不多了,文心一言这次的 App 倒是还有很多趣味玩法,但怎么说呢,隔了前面 AI 快速迭代的这几个月,你很难找到所谓的惊喜。
这次测试下来,文心一言值得一夸的是响应速度够快,没有门槛,更没有封号的问题,至于回答质量,比几个月前的它强了不少。
一句话总结:百度出了个可以一试的免费工具,但,难评。