AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格

作者：最热科技发布时间：2024-06-20

人工智能通义千问

近日，上海人工智能实验室组织了一场AI模型的高考能力测试，涵盖了语文、数学和英语三门科目。

在这次全卷测试中，共有七个AI模型参与，其中包括知名的GPT-4o。测试结果显示，阿里通义千问2-72B以303分的成绩位居榜首，而GPT-4o紧随其后，获得了296分。

虽然各AI模型在语文和英语科目上表现较好，但在数学科目上，它们的平均得分率仅为36%，几乎全军覆没。看来，即便是高级AI系统，在处理复杂的数学问题时也面临挑战。

因此，人类学生在面对数学难题时不必过于自责，不是不努力，而是真的太难了~

相关资讯

教育台 2024-07-04

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

数据显示，字节豆包在2024高考数学新II卷客观题正确率达到74.66%，在13家大模型中排名首位，阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中，字节豆包也排在前列。据悉，LLMeval是由复…

复旦

大力财经V 2024-06-16

来看看OpenAI发布的新模型GPT-4o mini和GPT-4o谁的数学更好？

OpenAI发布新模型GPT-4o mini，数学能力比GPT-4o强？北京时间7月19日凌晨，OpenAI 突然宣布了新模型GPT-4o mini，将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强，同样也是最贵的GPT-4o模型，而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体，通过兼具“能力和性价比”，拓展低价位市场的竞争。根据官网展示的价格： GPT-4o mini的商用价格是每百万输入 tokens 0

OpenAI

302AI 2024-07-19

近期资讯

Mac电脑全屏【平铺】的时候，窗口周维有空隙

当我们需要将窗口铺满整个屏幕的时候，一般有两种方式：使用快捷键：按住 ⌘ 键，点击绿色按钮；平铺之后，就会发现窗口四周会有间隙，每次都需要手动拖动窗口，很麻烦；解决方法：打开设置；将【平铺

禁止摆烂_才浅 2024-12-26

模型训练与数据分析

本次数据——直播带货。我这里的 "直播带货.csv"文件数据量有点大，大家可以使用Python进行模拟数据，建立cvs文件，用于数据分析来源本次数据分析目的——使用魔搭社区在线集成环境（IDE）进

ys指风不买醉 2024-12-26

Docker-Dockerfile讲解(二)

接上一节讲过的FROM,MAINTAINER,RUN,EXPOSE,WORKDIR,USER,我们这一节继续讲解其他参数。

dessler 2024-12-26

reactHooks到底钩到了什么？

理解React Hooks的工作原理，需要理解它们"钩住"的是什么? Hooks的核心目标是将函数组件与React的状态和生命周期管理系统连接起来。钩子钩了什么？ Hooks “钩”住了以下几方面：

北海天空 2024-12-26

2024-我赚到自媒体第一桶金

大家好，我是柒八九。一个专注于前端开发技术/Rust及AI应用知识分享的Coder 前言距离2024收尾，还有不到一周的时间了。今天，我们不聊技术，我们来谈点"感情"。我希望，我们是一种素未谋面见

前端小魔女 2024-12-26

【述职黑话】ToB交易业务解决方案之状态机

年底了大家都要述职，老板都会问：你这个方案，是否沉淀形成一套可复用解决方案？今天就介绍关于一个业务：状态变多、条件分支增多、状态转换规则、依赖关系变复杂，导致代码难以维护，代码可重用性和可扩展性变差

转转技术团队 2024-12-26

Android14 - SystemServer进程的启动与工作流程分析

SystemServer进程主要用于创建系统服务，我们比较熟知的AMS、PMS和WMS都是由它创建的。环境参数： android-14.0.0_r27 Ubuntu 22.04.5 LTS 在线源码

抛空 2024-12-26

Python入门项目：一个简单的办公自动化需求

前段时间，我npy说有一个很烦人的需求：有一个文章列表页面，总共10页，每页有30篇文章的标题、链接和日期。她领导希望把这些数据汇总进一个excel表格。她们公司有后台，由技术部的人负责维护，但技术部

hans774882968 2024-12-26

RocketMQ结合源码告诉你消息量大为啥不需要手动压缩消息

背景最近同事发现线上发送的RocketMQ消息太大，同事为了节省网络带宽和存储空间，手动压缩消息然后再进行消息发送，发现磁盘也没有明显的缩减所以我打算结合源码告诉他RocketMQ自带的消息压缩

小奏技术 2024-12-26

关于Android 16你想知道的都在这里

介绍一下新一代Android 16 Baklava的发布计划，带来的新功能和API变化，以及如何适配。

稀有猿诉 2024-12-26

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格

推荐体验

相关资讯

大模型的高考数学成绩单：及格已经非常好了

CICC科普栏目｜大模型的高考数学成绩单：及格已经非常好了

AI完败？首个AI高考全卷评测结果发布：数学全不及格，总分都上不了大专

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

来看看OpenAI发布的新模型GPT-4o mini和GPT-4o谁的数学更好？

近期资讯

Mac电脑全屏【平铺】的时候，窗口周维有空隙

模型训练与数据分析

Docker-Dockerfile讲解(二)

reactHooks到底钩到了什么？

2024-我赚到自媒体第一桶金

【述职黑话】ToB交易业务解决方案之状态机

Android14 - SystemServer进程的启动与工作流程分析

Python入门项目：一个简单的办公自动化需求

RocketMQ结合源码告诉你消息量大为啥不需要手动压缩消息

关于Android 16你想知道的都在这里

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好 数学不及格

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格