当前位置:首页|资讯|GPT-4|文心一言|编程|百度

有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

作者:驱动之家发布时间:2024-02-04

原标题:有问题先问它!讯飞星火认知大模型3.5评测:中国版GPT-4来了

一、前言:七大维度全面升级 讯飞星火认知大模型3.5来了

自ChatGPT问世以来,国内科技企业、科研机构纷纷加入大模型赛道,掀起“千模大战”。

在“大力出奇迹”的路径下,大模型还需要海量的数据“喂养”以及大规模算力投入,才能真正超越ChatGPT。

如今,国内已被大规模应用的大模型有科大讯飞旗下的星火认知大模型、百度旗下的文心一言(百度文心大模型)、阿里巴巴旗下的通义千问(阿里通义大模型)等等。

近期,科大讯飞再次取得突破,推出了基于首个纯国产算力底座“飞行一号”平台训练的大模型——讯飞星火V3.5。

据介绍,讯飞星火V3.5整体接近GPT-4 Turbo其语言理解、数学能力均已经超过GPT-4 Turbo,代码能力达到GPT-4 Turbo的 96%,多模态理解达到GPT-4V 的91%

说了这么多,那这款纯国产的讯飞星火V3.5大模型在各方面的体验究竟如何?对比国外的Chat GPT4.0又有多大的差距呢?

接下来,我们就对讯飞星火V3.5版本的大模型从语音交互、常规问答、语义理解、逻辑处理、数学能力、代码编写与解释能力等多个维度,与国内的百度文心一言以及国外的ChatGPT 4.0进行一次全面的测试对比。

二、全新的语音交互体验:以最自然的方式进行对话 毫无机械感

讯飞星火V3.5的第一大特性,就是提升了大模型的语音交互能力。

在讯飞星火V3.5版的APP界面底部,新增了一个机器人的图标,点击即进入到全语音交互界面。

在语音交互中,注入了两种音色输出,即聆小玥(女声)、聆飞逸(男声)。

我们测试了几个问题,来考察下讯飞3.5的语音交互能力。

首先是讯飞星火 V3.5的对话视频。

视频

讯飞星火 V3.5 的全语音交互体验极为流畅,首先在音色上,完全消除了“机器感”,几乎不会出现前后音调不搭的情况,声音听上去就像是真人在你旁边说话一样。

其次,其AI合成的声音自然逼真,甚至连语气词,例如“嗯”、“这个”、“那个”等都运用的恰到好处。

并且,语音输出语速适中,该快的时候快,该慢的时候慢,如果有一个外行人在身边,真的会认为这是一个真人在说话,拟人化程度相当惊人。

另外,在对话中,讯飞星火 V3.5 的反应特迅速,一般都是笔者的话音刚落,它就能立即作出回应,并且对语义的理解能力相当精准,对问题的判断相当准确,相比其他的语音助手答非所问、自问自答、反应慢半拍的情况,可以说讯飞真正做到了跟人“交互”的程度。

接着是文心一言V4.0的语音交互。

视频

文心一言V4.0在前几天还是不具备语音交互的,但这两天也推送了支持语音交互的新版本,我们也来测试一下它的语音交互能力。

在我们的测试中,文心一言V4.0的声音连贯性比较和谐,几乎不会出现断裂和不自然的过渡,但回答的细腻程度不及讯飞星火V3.5,而且一些问题都是直问直答,没有扩展性,并且缺少一些过渡用于,就有点像手机语音助手的那种感觉,听着会有一些紧巴巴的感觉,给人的感受没有讯飞那么自然。

最后是ChatGPT4.0的语音交互。

视频

通过视频我们可以感受到,ChatGPT4.0的语音输出字句前后也比较自然,但还是会出现一些语调不均的情况,听着会让人有些别扭。

而且,由于网络连接不稳定,在语音交流过程中偶尔会出现等待时间过长的情况。

三、国内外大模型对比测试:多项领域比肩ChatGPT 4.0 全面超越文心一言

接着,为了测试讯飞星火 V3.5在国际中的地位,我们使用国内的另一大模型文心一言和国外的ChatGPT 4.0进行一次全面的测试对比。

1、常规问答

(1)已知问题测试

①中国2020年GDP是多少人民币

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

三个大模型的回答准确无误,讯飞星火 V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比,不过讯飞分析的更加透彻,说到2020年这一特殊的年份,国内GDP增长的不易和国家正确的决策,能够深入理解复杂的趋势和事件。

Chat-GPT4.0则是直接给出了具体的数据,没有做过多的信息扩展。

②最近一次的东京奥运会的奖牌榜前5名的国家和奖牌数分别是?

讯飞星火V3.5

文心一言4.0

Chat-GPT4.0

第二个问题,只有讯飞星火3.5给出了正确的答案,文心一言则仅给到了前三的国家和奖牌数量,没有完整地回答问题,而ChatGPT的答案则出现了错误(中国共89枚奖牌)。

③全球第一款16GB内存的智能手机是什么型号?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第三个问题,面对机圈的问题,只有Chat-GPT4.0给到了正确答案,全球第一款16GB内存的智能手机,是2020年年初发布的三星Galaxy S20 Ultra。

(2)未知问题测试

①世界第一高峰与世界第二高峰相差多少米?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于世界之最这类问题,讯飞星火V3.5给出的是岩面高度差,回答正确,文心一言和Chat-GPT给到的则是雪面高度差,精度一致,没有任何问题。

2、逻辑推理能力

(1)鲁迅为什么暴打周树人?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于“鲁迅为什么暴打周树人”这种问题,讯飞星火、文心一言和ChatGPT4都能完美避坑,给出了鲁迅和周树人是同一个人的答案。

(2)昨天的当天是明天的什么?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第二个问题,昨天的当天是明天的什么?讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案,“前天”,而文心一言则给出“昨天的当天是明天的昨天”的答案,回答错误。

(3)龙龙的妈妈有4个孩子,其中3个孩子分别叫贝贝,天天和乐乐,请问她的第4个孩子叫什么?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第三个问题,三个大模型均成功避坑,讯飞和GPT4分析的最简洁最到位,文心一言则通过一顿逻辑判断和理解输出了正确的答案,过程稍有些复杂,不够简洁。

(4)脸盆里面漂浮着一块冰,请问冰融化之后,脸盆的水面是上升还是下降?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着是一个物理常识问题,讯飞回答错误,文心一言V4.0和GPT4.0均回答正确,冰融化之后,水面既不会上升也不会下降,并且给出了详细的逻辑分析。

看来,讯飞星火V3.5在初中物理知识方面,相较于Chat-GPT4.0还有点欠缺。

3、数学解题能力

(1)鸡兔同笼,头共67,足共184,问鸡兔各几只?请一步一步地作答

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

面对鸡兔同笼问题,讯飞和GPT4.0均以二元一次方程计算后给出了正确答案,讯飞星火给到了完整的解题过程,甚至连计算过程都精确的呈现出来,而文心一言和Chat-GPT4.0的回答过程则较为简略,以推理的过程为主。

(2)如果一个直角三角形的两条边长分别是6和8,另一个与它相似的直角三角形边长分别是3、4及x,那么x的值是多少?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着是第二个数学问题,面对这种没有给到对应数值的两边长度,我们一般会分析到两种不同的可能性,因此这道题的标准答案会有2个,很显然讯飞星火3.5全都顾及到了,给出了两个正确的答案。

而文心一言V3.5和Chat GPT4.0只给出了一种正确的可能性。

所以,通过以上测试的数学问题来看,讯飞星火V3.5的解题能力已经在国际中处于领先水平,甚至在部分能力上已经超越了Chat GPT4.0。

4、代码能力

现在许多程序员也会使用大模型来解决问题,因此在代码的编写和解释能力上,我们也测试了一番。

(1)代码编写

使用PyQt5搭建-个窗口,点击按钮之后,有50%的概率把按钮移动到窗口的随机位置,还有50%的概率把按钮的标题改成随机数。不要有多余的解释,直接给出可以运行的代码。

讯飞星火V3.5

文心一言V4.0

Chat-GPT 4.0

在代码编写能力上,三款大模型均能够精准理解需求,写出bug的程序,放到解释器里完美运行。

(2)解释代码

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

我们给到一段代码让三个大模型进行解释,三者均会根据每行的代码进行解释,文心一言给到的解释要更偏向小白,逻辑非常清晰,新手也能一目了然。

讯飞给到的解释与GPT4.0差不太多,所以在代码编辑和解释能力上,讯飞星火3.5、Chat GPT 4.0大体相当。

5、知识问答:文章提问

为了测试三种大型语言模型对语文理解能力的差异,我们选取了一段高中阅读理解材料,让这些模型阅读并回答相关问题。

通过这种方式,我们可以比较它们在文字理解方面的表现。

我们给到这段文字,让三款大模型进行阅读,接着进行提问。

问题一:请问永嘉山水适合隐居的原因是什么?

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

第一个问题,讯飞星火3.5给到的原因是最全面的,也是最准确的,从根本上回答了这个问题,文心一言3.5给到的答案也比较准确,不过并没有讯飞全面。

Chat GPT4.0给到的回答比较深入,也就是说它能够进一步理解作者所表达的内在思想与含义,也就是说Chat GPT4.0对文字的理解要更加深刻。

问题二:请简要总结这篇文章的主旨,要求在350字以内。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

对于语言的理解,讯飞星火 V3.5 和 GPT-4 在处理自然语言任务时都展现出了合格的理解能力,然而在综合比较中,GPT-4 在理解和表达方面显得更为精准与细腻。

6、文生图能力

在多模态能力上,我们测试对比了大模型文生图的能力,根据描述的文字画出图片。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

可以看到,三款大模型均能够理解文字所表达的意思,并画出准确的装修效果图。

不过讯飞星火V3.5和Chat GPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5,二者在文生图的能力上,不相仲伯。

讯飞星火V3.5

文心一言V4.0

Chat-GPT4.0

接着我们提高了难度,让三款大模型在上一幅图的基础上进行二次创作,虽然均不能还原上一幅图中的全部样貌,但讯飞星火V3.5和Chat GPT4.0均能以接近上一幅图的场景进行二次创作,并精确理解了“墙面上的画”指的是什么内容。

文心一言V4.0应该说是理解了题目中的一般要求,把“春江水暖鸭先知”的含义放在了整个画面当中,并没有理解“墙面上的画中”是什么东西,导致与要求的本意产生了较大的偏差,也让最终的呈现效果与预期有一定的出入。

反观讯飞星火V3.5和Chat GPT4.0,在语义理解能力方面表现出色,两者的能力接近,甚至达到了相似的水平。

四、总结:讯飞星火V3.5与Chat GPT4 不相仲伯

经过我们对三款大模型的深度体验与对比测试,我们做出以下总结:

在国际大模型比拼中,讯飞星火V3.5不仅在常规问答、逻辑推理和数学解题方面与Chat GPT 4.0并驾齐驱甚至在某些方面超越了后者,尤其在解答语言相关的问题时,讯飞星火V3.5展现出了更深厚的理解能力和更广泛的知识面。

在数学能力上,讯飞星火V3.5更注重解题的过程告诉你解题的所有步骤,就算是没有基础知识也能一看便会,而文心一言和GPT则更偏向于推理的过程,数据偏理科的那种。

就数学能力而言,国内的讯飞星火和文心一言这两款大模型的解题能力已经在国际中处于领先水平,甚至在部分能力上已经超越了Chat GPT 4.0

多模态能力上,代码编写与解释、作图等测试,讯飞和GPT 4.0均以精确的理解力和较为复杂的作图能力完成了要求,不仅能够准确理解所提供的信息,还能够在作图任务中细致地还原或创造出接近描述的细节,展现出了它们的强大的理解能力和创造能力

而文心一言虽然也能完成基本的任务,但在细节处理和深度理解上,与二者略有差距,很显然它在多模态交互方面的潜力还未完全发挥出来。

综合而言,讯飞星火认知大模型V3.5在各项测试中已相当出色,展现出其在多个领域的领先优势,尽管与ChatGPT 4.0在某些方面还有一定差距,但可以期待,随着科大讯飞在技术上的持续进步,未来的讯飞星火认知大模型将逐渐走到国际领先水平,全面对标GPT-4。

在当前国内人工智能领域竞争愈发激烈的背景下,我们有足够的信心和理由相信,讯飞星火将凭借其先进的语音技术和日益累积的技术算法,在不久的将来不仅能够追赶上 GPT-4 的能力水平,还将进一步推动中国在全球人工智能领域的发展和领导地位,走向新的阶梯。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1