ChatGPT、文心一言、通义千问、讯飞星火做高考数学题，看谁的表现更好？

作者：创投精选发布时间：2023-06-09

作者｜杨文袁博

编辑｜六耳

来源｜AI先锋官

高考已经接近尾声，小编先预祝各位考生金榜题名，前程似锦。此次高考不仅是各位考生们的大考，也是各家AI大模型之间的暗中较量。

之前小编也让文心一言、讯飞星火、GPT-4秀了一把作文能力。同时，我们也非常好奇它们的数学能力到底如何？

我们在今年的高考数学I卷中共挑选了13道题（其中选择题8道、填空题2道、解答题3道），共计84分。我们分别测试了GPT-4、通义千问、文心一言、讯飞星火四个大模型，其中GPT-4得分最高为36分，讯飞星火得分最低为19分。按百分制分别为43、35、26、23分。

一、选择题

测试题目：单选题5道、多选题3道。

选择题得分：GPT-4：19分；文心一言：22分；通义千问：29分；讯飞星火：9分。

答题过程描述：在解答选择题的时候，四个大模型表现都较其它题型要好。其中，通义千问答对了全部5个单选题，不过每道题都回答了4到5遍左右。这不禁让小编怀疑它答题也是靠“蒙”？文心一言在解答前两道选择题时，都是一遍对。

然而，讯飞星火表现的表现就有点掉链子。即便小编把答案告诉它，它依旧坚持选择错误答案，一副死犟死犟的范儿。

二、填空题

测试题目：2道

填空题得分：GPT-4：5分；文心一言：0分；通义千问：0分；讯飞星火：5分。

答题过程描述：在填空题方面，四个大模型表现都比较一般。GPT-4、讯飞星火得分相对较高。文心一言、通义千问得了一个零蛋。

在通义千问答题过程中，小编发现它还很固执。比如，在解答第13题时，我们让它做了不下10遍，无一次正确。甚至，通义千问还表示：“并不想考虑每类至少选修1门的限制”，这种“犟”劲儿有点让人哭笑不得。

三、解答题

测试题目：3道

得分：GPT-4：12分、文心一言：0分、通义千问：0分、讯飞星火：5分。

答题过程描述：在解答题方面，四个大模型的表现都很一般，出现胡编乱造的情况，甚至一度让自己陷入死循环。

相对而言，GPT-4更胜一筹，基本上能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没，全部答错。

能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没，全部答错。

相关资讯

用逻辑题来考GPT、文心一言、讯飞星火、通义千问会咋样

有三张牌，两张大王一张小王，打乱顺序，选一张牌，只问一个是非问题，如果选的是大王，对方只能说真话，如果选的是小王，对方可以说真话，也可以说假话，那么怎么选出大王呢 GPT [图片] 文心一言 [图片] 讯飞星火 [图片] 通义千问 [图片] 那么谁答对了呢（ps：题目有小坑）

文心一言通义千问

老王说点啥 2023-12-22

国内AI 通义千问，讯飞星火，文心一言使用对比

刚看到，阿里云正式发布千亿级参数大模型通义千问2.0。宣传说，在10个权威测评中，通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4。当天，通义千问APP在各大手机应用市场正式上线，所有人都可通过APP直接体验最新模型能力。过去6个月，通义千问2.0在性能上取得巨大飞跃，相比4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前，通义千问的综合性能已经超过GPT-3.5，加速追赶GPT-4。刚测试一下，通义千问，再对比一下，讯飞

通义千问文心一言 GPT-4

谷动谷力 2023-11-02

ChatGPT、文心一言、通义千问、讯飞星火一起写作文，语文老师觉得谁更好？

ChatGPT 文心一言通义千问

脑极体 2023-06-07

阿里通义千问 VS 百度文心一言 VS 讯飞星火 chatGPT会给几分？

【国外动态】微软官方发布全面开放BingChat谷歌PaLM2测试反超GPT4谷歌Workspace阻击微软CopilotClaude更新AI超强记忆读写功能SD发布开源模型DeepFloyd IFAutomatic 1111 webui Al实时作画脚本StableAnimation发布，一键生成动画Midiourney V5.1和V5.1Raw，中文版上线QQSam Altman发布Worldcoin WorldID WorldAPPGitHub CEO直播GitHub Copilot X写小游戏代码

通义千问文心一言 ChatGPT GPT-4 GitHub

她像你像谁 2023-05-19

【评测】一个问题对比文心一言、讯飞星火、通义千问和无际Ai

ChatGPT的问世给大家带来了前所未有的影响，作为一种先进的人工智能语言模型，ChatGPT以其出色的自然语言处理能力和对话交互技巧，成为了人们日常生活中不可或缺的一部分。它不仅在个人娱乐和学习方面发挥了重要作用，而且在商业、医疗和教育等领域也产生了深远的影响。国内现在各种生成式AI大模型也层出不穷，今天我们拿一个逻辑推理问题测评一下【讯飞星火】、【文心一言】、【通义千问】和【无际Ai GPT-4】的模型水平：文心一言：百度全新一代知识增强大语言模型，能够与人对话互动，回答问题，协助创作，高效便捷地帮助

文心一言通义千问 ChatGPT GPT-4

无际Ai 2023-10-08

ChatGPT、文心一言、通义千问、讯飞星火做高考数学题，看谁的表现更好？

推荐体验

相关资讯

用逻辑题来考GPT、文心一言、讯飞星火、通义千问会咋样

国内AI 通义千问，讯飞星火，文心一言使用对比

ChatGPT、文心一言、通义千问、讯飞星火一起写作文，语文老师觉得谁更好？

阿里通义千问 VS 百度文心一言 VS 讯飞星火 chatGPT会给几分？

【评测】一个问题对比文心一言、讯飞星火、通义千问和无际Ai

近期资讯

联想、华为、小米获选年度趋势掌舵手京东3C数码超级趋势年度榜单揭晓

科氪 | 英特尔酷睿ULTRA 7系CPU加持，ThinkPad X1 Carbon开箱体验

2024年十大财务造假公司

像素绽放PixelBloom（AiPPT.com）CEO赵充：未来95%的用户都会用AI原生的方式写PPT丨超级观点

人生太累的原因：身边有太多消耗你的人

大话东游，这个冬天ChinaTravel更火了

上市累计涨超82%，毛戈平带「活」国产美妆？| 氪金·大事件

“还没过安检票上的字都快磨没了”，比外卖小票还劣质的机票让打工人无语了

即梦对阵可灵，重演抖音反超快手？

王思聪已投资90家公司，想再造万达？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响