ChatGPT的发布掀起了新一代人工智能发展浪潮,将人类科技文明推向了通用人工智能时代,AIGC基础层的通用大模型成为国内外厂商纷纷布局的领域。
4 月23,国内大模型厂商商汤推出日日新大模型体系5.0版,以此为基础,旗下包括商量、秒画、如影、琼宇、格物等在内的五大模型性能也水涨船高,达到新高。
稍后,国内另一家人工智能企业科大讯飞也发布了星火大模型V3.5春季升级版,在文本生成、语言理解、知识问答、逻辑推理,数学能力、多模态和代码七大核心能持续提升的同时,业内首发长文本、长图文、长语音、多情感超拟人合成和一句话声音复刻等功能。
通过此次升级,讯飞星火V3.5大模型不仅能够迅速吸收来自不同信息源的大量文本、图形材料和会议记录,还能在各种行业场景下提供专业且确切的解答,从而将大型模型的使用从“偶尔”提升到“常态化”,极大地提高每个人在工作和学习中的效率,助力人们更高效地获取知识,更精准地解决问题。
正是基于两大模型的最新版本,这里我们将通过10道小、初、高应用题,对两大模型的数学能力进行测试,每题10分,看看两大模型能考几分?
大数学的数学能力,实际考验了大模型的语言理解能力和逻辑推理能力,能从侧面很好地反映出大模型的智能水平。
试题1:一家三口人,三人年龄之和是72岁,妈妈和爸爸同岁,妈妈的年龄是孩子的4倍三人各是多少岁?
讯飞星火
商汤商量
这是一道小升初考题,两大模型都做对了,得10分。
试题2:联欢会上,要把10个水果装在6个袋子里,要求每个袋子中装的水果都是双数,而这且水果和袋子都不剩。应该怎样装?
讯飞星火
商汤商量
这是一首小学奥数题,与其说是数学题,不如说是脑筋急转弯,但不管怎么说,讯飞星火答对了,而商汤商量则陷在10不可能被6整除的死循环里。
讯飞星火得10分,商汤商量0分。
试题3:将一批数据输入电脑,甲独做需要50分钟完成,乙独做需要30分钟完成,现在甲独做30分钟,剩下的部分由甲、乙合做,问甲、乙两人合做的时间是多少?
讯飞星火
商汤商量
两大模型都给出了正确答案,各得10分。值得一提的是,商汤商量在给出答案的同时还给出了详细解题思路,值得点赞。
试题4:某轮船的静水速度为v千米/时,水流速度为m千米/时,则这艘轮船在两码头间往返一次顺流与逆流的时间比是多少?
讯飞星火
商汤商量
同样正确,各得10分。
试题5:一队少先队员乘船过河,如果每船坐 15人,还剩 9人,如果每船坐 18 人,则剩余 1 只船,求有多少只船?
讯飞星火
商汤商量
又是并驾齐驱,各得10分。
试题6:一个有机物的质量每5小时减少15%,开始时有200g,经过多少小时后质量会减少到100g以下?
讯飞星火
商汤商量
这道题的正确答案是40小时,两大模型都没答对,不得分。
试题7:用100文购买了100只鸡,公鸡一只5文钱,母鸡一只3文钱,小鸡则是一文钱三只。问:公鸡、母鸡、小鸡各有多少只 ?
讯飞星火
商汤商量
此题是著名的“百钱买百鸡问题”,正确答案有三种:①公鸡买4只,母鸡买18只,小鸡买78只;②公鸡买8只,母鸡买11只,小鸡买81只;③公鸡买12只,母鸡买4只,小鸡买84只。讯飞星火答对1种,得10分。商汤商量列了一大篇,最后没得出结果,0分。
试题8:韩信领军,想知道军队的人数,只知道士兵若三人一组余两人;五人一组则余三人;七人一组则余四人。问:这队士兵至少有多少人?
讯飞星火
商汤商量
这个问题是中国古代著名的数学问题,称为“韩信点兵”或“中国剩余定理”的应用,正确答案是至少有53人。讯飞星火和商汤商量显然都知道这个问题,但尽管如此,商汤商量还是答错了,不得分。讯飞星火得10分。
试题9:2014年某省财政收入比2013年增长8.9%,2015年比2014年增长9.5%,若2013年和2015年我省财政收入分别为a亿元和b亿元,则a、b之间满足的关系式是()。A.b=a(1+8.9%+9.5%);B.b=a(1+8.9%×9.5%);C.b=a(1+8.9%)(1+9.5%);D.b=a(1+8.9%)2(1+9.5%)
讯飞星火
商汤商量
回答正确,两大模型各得10分。
试题10:某班准备购置一些乒乓球和乒乓球拍,班主任李老师安排小明和小强分别到甲、乙两家商店咨询了同样品牌的乒乓球和乒乓球拍的价格,下面是小明、小强和李老师的对话.
小明:甲商店乒乓球拍每副定价30元,乒乓球每盒定价5元,每买一副乒乓球拍可以赠送一盒乒乓球。
小强:乙商店乒乓球和乒乓球拍的定价与甲商店一样,但乙商店可以全部按定价的九折优惠。
李老师:我们班需要乒乓球拍5副,乒乓球不少于5盒。
根据以上对话回答下列问题:
(1)当购置的乒乓球为多少盒时,甲、乙两家商店所需费用一样多?
(2)若需要购置30盒乒乓球,你认为到哪家商店购买更合算?(要求有计算过程)
讯飞星火
商汤商量
这道题的正确答案是:①当购买乒乓球20盒时,甲、乙两家商店所需费用一样多。②当购买30盒乒乓球时,去甲店购买要5×30+125=275(元),去乙店购买要4.5×30+135=270(元),所以去乙店购买合算。
讯飞星火答对了第二题,却答错了第一题,扣5分。商汤商量全部答对,得10分。
至此,评测结束,两大模型得分情况如下:
从得分可以看出,讯飞星火大模型在数学能力方面存在一定优势,不过,数学优势不等于综合性能优势。为了让大家能真正感受到两款大模型的魅力,后期我们将陆续推出有关两款大模型的性能对比,比如语言理解、逻辑推理、代码能力和多模态能力等。