AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格

作者：最热科技发布时间：2024-06-20

人工智能通义千问

近日，上海人工智能实验室组织了一场AI模型的高考能力测试，涵盖了语文、数学和英语三门科目。

在这次全卷测试中，共有七个AI模型参与，其中包括知名的GPT-4o。测试结果显示，阿里通义千问2-72B以303分的成绩位居榜首，而GPT-4o紧随其后，获得了296分。

虽然各AI模型在语文和英语科目上表现较好，但在数学科目上，它们的平均得分率仅为36%，几乎全军覆没。看来，即便是高级AI系统，在处理复杂的数学问题时也面临挑战。

因此，人类学生在面对数学难题时不必过于自责，不是不努力，而是真的太难了~

相关资讯

教育台 2024-07-04

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

数据显示，字节豆包在2024高考数学新II卷客观题正确率达到74.66%，在13家大模型中排名首位，阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中，字节豆包也排在前列。据悉，LLMeval是由复…

复旦

大力财经V 2024-06-16

来看看OpenAI发布的新模型GPT-4o mini和GPT-4o谁的数学更好？

OpenAI发布新模型GPT-4o mini，数学能力比GPT-4o强？北京时间7月19日凌晨，OpenAI 突然宣布了新模型GPT-4o mini，将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强，同样也是最贵的GPT-4o模型，而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体，通过兼具“能力和性价比”，拓展低价位市场的竞争。根据官网展示的价格： GPT-4o mini的商用价格是每百万输入 tokens 0

OpenAI

302AI 2024-07-19

近期资讯

北京上海豪宅卖爆了，但这一数据让人有点担心

北京、上海社零疲软，豪宅卖爆了。

小屋见大屋 2024-12-27

首篇「角色扮演AI」综述，复旦等提出大模型三层人格分类框架：群体、角色、个性化

复旦大学综述RPLAs研究，提出三层人格分类框架。

新智元 2024-12-27

从乔布斯到库克，苹果如何一步步摆脱对英伟达的依赖

苹果减少英伟达依赖，租用谷歌TPU，开发自研芯片。

36氪的朋友们 2024-12-27

出海速递｜“新出海”的三大变化与四点思考/比亚迪回应巴西工厂相关传闻：欲加之罪，何患无辞

查阅更多出海好文章，请移步出海官网 letschuhai.com。

36氪出海 2024-12-27

半导体资深分析师：英伟达就像“三头龙”，全球70%AI工作依赖其芯片

英伟达AI芯片仍主导市场，规模扩张持续。

36氪的朋友们 2024-12-27

音乐平台正在被成熟艺人抛弃？

并非单选题。

音乐先声 2024-12-27

双十二过后，谁在领跑东南亚的跨境电商？

跨境有道，方可远航。

晓曦 2024-12-27

协议曝光，原来微软OpenAI这样定义AGI

主要维度不在技术，要能带来1000亿美元收益

量子位 2024-12-27

手机镜头厂商中蓝电子否认爆雷，但行业危机还未解除

中蓝电子否认爆雷，手机镜头业竞争激烈。

36氪的朋友们 2024-12-27

OpenAI欲转营利性公司，补偿董事会多少钱才合理？

OpenAI拟从非营利转型为营利公司，面临控制权和资金挑战。

36氪的朋友们 2024-12-27

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格

推荐体验

相关资讯

大模型的高考数学成绩单：及格已经非常好了

CICC科普栏目｜大模型的高考数学成绩单：及格已经非常好了

AI完败？首个AI高考全卷评测结果发布：数学全不及格，总分都上不了大专

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

来看看OpenAI发布的新模型GPT-4o mini和GPT-4o谁的数学更好？

近期资讯

北京上海豪宅卖爆了，但这一数据让人有点担心

首篇「角色扮演AI」综述，复旦等提出大模型三层人格分类框架：群体、角色、个性化

从乔布斯到库克，苹果如何一步步摆脱对英伟达的依赖

出海速递｜“新出海”的三大变化与四点思考/比亚迪回应巴西工厂相关传闻：欲加之罪，何患无辞

半导体资深分析师：英伟达就像“三头龙”，全球70%AI工作依赖其芯片

音乐平台正在被成熟艺人抛弃？

双十二过后，谁在领跑东南亚的跨境电商？

协议曝光，原来微软OpenAI这样定义AGI

手机镜头厂商中蓝电子否认爆雷，但行业危机还未解除

OpenAI欲转营利性公司，补偿董事会多少钱才合理？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好 数学不及格

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格