国内出了一系列大模型,那么到底哪一个更聪明呢?本文通过一个真实的场景事件来测评一下,一起来看看吧。
由于业务升级和迭代的诉求,近来在对国内外的大模型产品进行业务选型,所以本文通过一个真实的场景事件来测评一下,到底谁更聪明~
企业业务场景:智能客服迭代优化
以上是粗略的业务方的需求进行概括,所以几个产品进行测评。先不讨论技术指标、数据安全性的层面,这些内容后续会逐步分享。
本周正好发生了一件乌龙事件,我讲事件和对话流喂给几个大模型,看看谁理解了这件事,本文想分享一件非常有趣的案例:
本次测评对象:Chat- GPT 3.5 、文心大模型3.5、通义千问、星火大模型
事件还原:
我原定放在门口的退货快递鼠标被保洁阿姨误认为是垃圾清理走了,我认为是丢件通知了管家帮忙看下,在管家的协助下,找到保洁阿姨找回快递,但是丢了一个配件;此时我需要联系官方客服确定此时是否支持退货,or给一个赔偿配件的钱,我找保洁进行赔偿。
所以这个事情下,我找了某东的官方客服进行情况说明:
需求:给出这种场景下的售后方案;
对话截图还原:
首先几家都不支持识别图片,需要我转文本一遍,所以我就用了微信的这个图片文字识别能力,删除了一部分其他明显不是对话流的文本。
值得比较的问题 1. 对话流投喂拆分段落
拆分准确率:Chat-GPT>通义千问>文心
这块完全讯飞垮了,没拆分出来;
文心:按照对话人进行拆分,但是没有整合,准确率上:有5句分错人
通义:按照对话人进行拆分和合并,有2句话分错人
讯飞:完全没分区分出来,准确率不做评估
Chat-gpt:区分对话人进行并进行整理,主动清理了部分杂乱数据,1句分错人;
2. 在这个场景中,客户的诉求是什么呢
对比:Chat-GPT=通义>讯飞>文心
[fancyad id=”45″
我这里更想知道的是这种情形下:
文心:理解有些偏差,第一点完全不对;表达啰嗦;
Chat- GPT:第一意图理解准确,表达清晰
通义:意图理解准确,表达清晰
讯飞:意图理解准确,没有结构化表达
3. 这里客户是需要谁来赔偿这个配件的缺失呢
准确率:通义>文心>星火>Chat-GPT
我的本意:
这里肯定是保洁阿姨的责任,管家找到她拿回快递这里已经是实锤了,但是有可能还有快递没有及时取件的锅。
通义:第一遍问答通用性回答;第二遍场景引导后,回答比较准确;
文心:第一遍问答能够给出答案,1点点啰嗦;
Chat- GPT:完全没回答准确,偏离较远,明显感觉此时胡扯🤬
星火:第一遍问答有答案,但是第二段cue到了商家,有点不对劲
4. 请还原一下这个事件的全部链路
补充信息:客户在京东商城购买了鼠标,退货当天12点离开家,将快递放在门口的鞋柜上,下午15点快递取件未找到,然后客户联系了管家协助,同时报警,其他的信息请通过对话流信息还原;
对比:通义>Chat-GPT>星火>文心
文心上来就开写小作文哈哈哈哈,yy的内容真不少。
文心:前面还正常,后面完全当个小作文来些了,还有happy ending 哈哈哈哈
Chat-GPT:信息还原完整,有着重关注客户的需求
通义:还原准确,并且有参考之前聊的客服的内容,单独将客服的回复摘出来
星火:还原准确,逐条有时间线
所以对于这个事件,请进行总结,包含事件的发生的场景还原,责任方,赔偿方、客户希望的解决方案,客服团队如何引以为戒优化工作流程、以及对于客户的赔偿办法。
对比:通义>Chat-GPT>星火>文心(这里通义非常优秀)
Chat- GPT:回答简洁,但是我认为对与客服的提升,应该要准确的识别客户的诉求,该加急处理就加急,这次明显是没有提供及时的解决方案
通义:回答十分优秀,责任方和客户意图理解的都挺到位的,也根据当前会话的主题,提供有效了流程建议
文心:又开始写小作文了!!他真的好爱写作文!
星火:基本对吧,但是把商城扯进来了,中等准确
这个事情,你认为客户是真的报警了还是吓唬客服的呢。
这个问题,也是最后想到的。
其实我没报警,只是想让客服给我赶紧处理,所以我把这个问题作为本场测验的最后一问,果然,大家的回答都是一样的哈哈。
结论:他们还是不知道我撒谎。
大家看看各自的回复,暂无对比。
文心:不管报不报警,客服好好处理
通义:基本认为报警
星火:和文心差不多
Chat- GPT:基本认为报警
这次的测评事件,我准备下周再找通义的售前聊一下解决方案。
本文由 @Cheese 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。