10道数学题，讯飞星火V3.5升级版和商汤商量5.0的得分亮了

作者：茂智科技发布时间：2024-05-13

ChatGPT的发布掀起了新一代人工智能发展浪潮，将人类科技文明推向了通用人工智能时代，AIGC基础层的通用大模型成为国内外厂商纷纷布局的领域。

4 月23，国内大模型厂商商汤推出日日新大模型体系5.0版，以此为基础，旗下包括商量、秒画、如影、琼宇、格物等在内的五大模型性能也水涨船高，达到新高。

稍后，国内另一家人工智能企业科大讯飞也发布了星火大模型V3.5春季升级版，在文本生成、语言理解、知识问答、逻辑推理，数学能力、多模态和代码七大核心能持续提升的同时，业内首发长文本、长图文、长语音、多情感超拟人合成和一句话声音复刻等功能。

通过此次升级，讯飞星火V3.5大模型不仅能够迅速吸收来自不同信息源的大量文本、图形材料和会议记录，还能在各种行业场景下提供专业且确切的解答，从而将大型模型的使用从“偶尔”提升到“常态化”，极大地提高每个人在工作和学习中的效率，助力人们更高效地获取知识，更精准地解决问题。

正是基于两大模型的最新版本，这里我们将通过10道小、初、高应用题，对两大模型的数学能力进行测试，每题10分，看看两大模型能考几分？

大数学的数学能力，实际考验了大模型的语言理解能力和逻辑推理能力，能从侧面很好地反映出大模型的智能水平。

试题1：一家三口人，三人年龄之和是72岁，妈妈和爸爸同岁，妈妈的年龄是孩子的4倍三人各是多少岁？

讯飞星火

商汤商量

这是一道小升初考题，两大模型都做对了，得10分。

试题2：联欢会上，要把10个水果装在6个袋子里，要求每个袋子中装的水果都是双数，而这且水果和袋子都不剩。应该怎样装？

讯飞星火

商汤商量

这是一首小学奥数题，与其说是数学题，不如说是脑筋急转弯，但不管怎么说，讯飞星火答对了，而商汤商量则陷在10不可能被6整除的死循环里。

讯飞星火得10分，商汤商量0分。

试题3：将一批数据输入电脑，甲独做需要50分钟完成，乙独做需要30分钟完成，现在甲独做30分钟，剩下的部分由甲、乙合做，问甲、乙两人合做的时间是多少？

讯飞星火

商汤商量

两大模型都给出了正确答案，各得10分。值得一提的是，商汤商量在给出答案的同时还给出了详细解题思路，值得点赞。

试题4：某轮船的静水速度为v千米/时，水流速度为m千米/时，则这艘轮船在两码头间往返一次顺流与逆流的时间比是多少？

讯飞星火

商汤商量

同样正确，各得10分。

试题5：一队少先队员乘船过河，如果每船坐 15人，还剩 9人，如果每船坐 18 人，则剩余 1 只船，求有多少只船？

讯飞星火

商汤商量

又是并驾齐驱，各得10分。

试题6：一个有机物的质量每5小时减少15%，开始时有200g，经过多少小时后质量会减少到100g以下?

讯飞星火

商汤商量

这道题的正确答案是40小时，两大模型都没答对，不得分。

试题7：用100文购买了100只鸡，公鸡一只5文钱，母鸡一只3文钱，小鸡则是一文钱三只。问：公鸡、母鸡、小鸡各有多少只？

讯飞星火

商汤商量

此题是著名的“百钱买百鸡问题”，正确答案有三种：①公鸡买4只，母鸡买18只，小鸡买78只;②公鸡买8只，母鸡买11只，小鸡买81只；③公鸡买12只，母鸡买4只，小鸡买84只。讯飞星火答对1种，得10分。商汤商量列了一大篇，最后没得出结果，0分。

试题8：韩信领军，想知道军队的人数，只知道士兵若三人一组余两人；五人一组则余三人；七人一组则余四人。问：这队士兵至少有多少人？

讯飞星火

商汤商量

这个问题是中国古代著名的数学问题，称为“韩信点兵”或“中国剩余定理”的应用，正确答案是至少有53人。讯飞星火和商汤商量显然都知道这个问题，但尽管如此，商汤商量还是答错了，不得分。讯飞星火得10分。

试题9：2014年某省财政收入比2013年增长8.9%，2015年比2014年增长9.5%，若2013年和2015年我省财政收入分别为a亿元和b亿元，则a、b之间满足的关系式是（）。A．b=a（1+8.9%+9.5%）；B．b=a（1+8.9%×9.5%）；C．b=a（1+8.9%）（1+9.5%）；D．b=a（1+8.9%）2（1+9.5%）

讯飞星火

商汤商量

回答正确，两大模型各得10分。

试题10：某班准备购置一些乒乓球和乒乓球拍，班主任李老师安排小明和小强分别到甲、乙两家商店咨询了同样品牌的乒乓球和乒乓球拍的价格，下面是小明、小强和李老师的对话．

小明：甲商店乒乓球拍每副定价30元，乒乓球每盒定价5元，每买一副乒乓球拍可以赠送一盒乒乓球。

小强：乙商店乒乓球和乒乓球拍的定价与甲商店一样，但乙商店可以全部按定价的九折优惠。

李老师：我们班需要乒乓球拍5副，乒乓球不少于5盒。

根据以上对话回答下列问题：

（1）当购置的乒乓球为多少盒时，甲、乙两家商店所需费用一样多？

（2）若需要购置30盒乒乓球，你认为到哪家商店购买更合算？（要求有计算过程）

讯飞星火

商汤商量

这道题的正确答案是：①当购买乒乓球20盒时，甲、乙两家商店所需费用一样多。②当购买30盒乒乓球时，去甲店购买要5×30+125=275（元），去乙店购买要4.5×30+135=270（元），所以去乙店购买合算。

讯飞星火答对了第二题，却答错了第一题，扣5分。商汤商量全部答对，得10分。

至此，评测结束，两大模型得分情况如下：

从得分可以看出，讯飞星火大模型在数学能力方面存在一定优势，不过，数学优势不等于综合性能优势。为了让大家能真正感受到两款大模型的魅力，后期我们将陆续推出有关两款大模型的性能对比，比如语言理解、逻辑推理、代码能力和多模态能力等。

10道数学题，讯飞星火V3.5升级版和商汤商量5.0的得分亮了

推荐体验

相关资讯

讯飞星火V3.0升级发布，整体超越ChatGPT

讯飞星火 V3.5 体验：整体接近 GPT-4

有能力更有温度，讯飞星火 V3.5 春季上新

讯飞星火正式发布语音大模型V3.5，数学、语义理解、代码能力持续提升

部分功能已超GPT-4！讯飞星火V3.5亮相

近期资讯

起死回生！国产GPU独角兽自救成功：获重大突破

价格战威力巨大！今年前11月195款车型降价已是2022年两倍

问界M9大定破20万台余承东：一代神车、改写中国汽车历史

哈尔滨吸粉“进口土豆子”：“China travel”吹起东北风了

湖北原产秋慕思田冷水晚籼米大促：10斤到手26.9元

埃及两男子从海底偷数百件文物被捕网友：考古队省心了

台积电拿下高通骁龙8 Elite 2订单！三星瞄准骁龙8 Elite 3

华为nova 13 Pro AI最佳表情体验：人人都是表情管理大师

秒变游戏电脑！小米平板6S Pro内测3A游戏虚拟机

张雪峰公司开年会“撒”现金：图书4个月线上卖了5000万

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响