AI角逐河南高考，字节豆包夺国产第一

作者：河南经济报发布时间：2024-07-03

6月24日，高考新课标Ⅰ卷全科目大模型评测报告出炉。数据显示，GPT-4o 以562分排名文科总分第一，字节跳动旗下的豆包成绩是542.5分，排名国产AI首位，其后依次是百度文心一言4.0的537.5分，以及百川智能“百小应”的521分。

本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取分数线，文科本科一批录取分数线为521分，GPT-4o超出41分，豆包等三款国产AI也成功冲上一本线。

而根据最新河南高考分数段统计数据，GPT-4o的562分在文科考生中排名8811名，相当于人类考生的前2.45%，豆包则处于前4.27%的位置。在过去一年多时间里，国产AI技术能力获得了长足进步，目前已经接近国际顶尖大模型的水平。

文科已达优秀水平

字节豆包排名国产第一

语文作为文科的重要组成部分，是大模型与人类考生展开激烈竞争的舞台。国产大模型凭借对中文语言的独特理解和处理能力，表现可圈可点。百小应、字节豆包和腾讯元宝占据了前三的位置。豆包更是以平均分52分的成绩，拿下作文写作最高分。

负责本次阅卷的是北京市级骨干教师、怀柔区语文学科带头人夏老师，她曾多次参加全国高考语文阅卷。夏老师指出，Al写出的文章大多有清晰完整的结构，有逻辑性，语言通顺流畅，但“其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力”，这成为大模型在语文科目中进一步提升的关键所在。

英语考试中，大模型在阅读和语言运用等客观题上展现出了较高的水平，GPT-4o、百小应、通义千问等甚至获得了 80 分的满分，豆包和文心4.0 也接近满分。但在 40 分的写作考试中，最高分仅为 29 分，由 GPT-4o 和百小应获得。大模型的英语写作主要在表达的丰富度和细节处理上有所欠缺，若能在这些方面有所突破，未来冲击高考英语写作满分并非遥不可及。

在由历史、地理、政治组成的文综考试中，大模型们的表现各有千秋。GPT-4o 以 237 分的总成绩展现出了较强的综合能力，平均得分达到 79 分，超越了多数人类考生。国产大模型中，字节豆包拔得头筹，取得了 224.5 分的优异成绩。尤其是在历史科目中，豆包拿到了 82.5 分，在所有参与评测的 9 款大模型中位居第一。

不过，在政治考试中，GPT-4o 凭借 88 分的高分令人意外地夺魁。而地理考卷由于存在大量图片问题，给众多大模型带来了不小的挑战，最终图像理解能力较强的 GPT-4o 获得了最高分，但也仅有 68 分，在一定程度上影响了各家大模型的文综总成绩。

理科成绩不尽如人意

相比文科，大模型的理科成绩则不尽如人意，与人类顶尖考生差距十分显著。

在数学考试中，9 款大模型产品中仅有 GPT-4o、文心一言 4.0 和豆包获得 60 分以上的成绩（满分 150 分）。据测试机构透露，豆包等大模型能准确运用求导公式和三角函数定理，但在面对较为复杂的推导和证明问题时，往往难以得分。

在化学和物理考试中，情况更为严峻，平均分数分别只有 34 分和 39 分。化学单项最高分 49.5 分由豆包获得，而 GPT-4o 仅有 42 分。在物理考试中，一道基于常识“时间不会倒流”就能轻易排除错误选项的送分题，大模型却几乎全军覆没，凸显了大模型在应对考试灵活性方面的不足。

综合来看，此次大模型的高考评测结果表明，在过去一年多的时间里，国产 AI 技术在某些领域取得了显著进步，已经逐渐接近国际顶尖大模型的水平。但在数理学科方面，大模型仍面临着巨大的挑战，需要在算法优化、数据训练等方面持续发力，不断提升自身的能力，以更好地适应复杂多变的知识考查和应用场景。

（来源：大河报）

沐林|编辑

河南经济报融媒体中心│出品

AI角逐河南高考，字节豆包夺国产第一

推荐体验

相关资讯

国产AI应用登陆国产系统！字节豆包上架统信应用商店

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一

大模型2024高考发榜，豆包等三款国产AI考上文科一本线

ChatGPT写2023年河南高考语文作文

被字节索赔 800 万实习生夺 NeurIPS 最佳论文，豆包 team 邀同届获奖人现场 chat！网友：字节要钱还是要人？

近期资讯

一加Ace 5 Pro发布：最强骁龙8至尊版手机 3399元起

ROG绝梦25 Pro显示器上线：380Hz Fast IPS面板、0.3ms响应

2024年Steam发布近1.9万款游戏创新纪录！平均每天51款

小米SU7冬季实测大获全胜：夺全场三个第一

小米集齐“蔚小理” 今年充电桩企业注册量创历史新高

中国游客注意了在韩国首尔喂鸽子将被重罚：最高5000元

北京又一历史遗产30多年来首次开放：已有585年历史

车主罗列60条剖析蔚来存在的问题：创始人李斌在线感激

又一条时速350公里高铁开通：中国最密集高铁网+1

RTX 5090的“心脏”首次现身！744平方毫米史上第二大

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响