近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
标题:拥有这些厨房好物做饭轻松一半首先,让我们来谈谈那些让厨房工作变得轻松无比的神器。首先是多功能料理机,它集搅拌、榨汁、研磨等多种功能于一身,无论是制作果汁、奶昔还是酱料,都能轻松应对。其次,是智能电饭煲,它能够根据食材的种类和数量自动调节烹饪时间,让你不再为煮饭而烦恼。
美食一家亲 2024-12-29
IT之家12月29日消息,小米创办人,董事长兼CEO雷军今日宣布,12月31日晚8点,打算做一场围炉跨年直播。雷军表示,2024马上就要过去了,回望这一年,大家肯定都有不少感慨。如果你没有特别的安排,欢迎你来我的直播间,一起许个愿、聊聊天,比如,这一年来,你都经历过哪些有趣的事和难忘的事?
IT之家 2024-12-29
荷兰光刻机巨头ASML(阿斯麦)的首席执行官克里斯托弗·富凯(ChristopheFouquet)近日表示,尽管华为和中芯国际在半导体领域取得了显著的进步,但与Intel、台积电、三星等行业巨头相比,仍然落后10-15年。
中关村在线 2024-12-29
“320次飞行,55万公里,相当于环绕地球飞了14圈。”这台“手术机器人”——首台国产经口手术机器人系统TransoralRoboticSurgerySystem(TORSS®拓思),正是由博恩思研发完成。随着企业的发展,李耀的目标就不只是研发国产手术机器人,还要让他们的机器人“出海”,打开全球市场。
爱看头条 2024-12-29
工具,更是存储了我们大量私人信息的设备。为了保护这些信息,设置密码锁屏就显得尤为重要。接下来,我们就来一步一步地看看如何在苹果手机上设置这个密码锁屏。首先,确保你的手机已经解锁,进入主屏幕。接下来,找到“设置”这个图标,通常它是一个齿轮的形状,点击进去。进入设置后,你会看到很多选项,比如“无线局域网”、“蓝牙”、“通知”等等。
新报观察 2024-12-29
据第一财经报道,雷军开出千万年薪招揽了一位95后AI天才少女——DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉。
钛媒体APP 2024-12-29
据小米汽车透露,今年来,小米汽车持续布局销售网络,目前已开业200家门店,覆盖全国58个城市。智驾方面,目前小米汽车累计智驾里程已突破1亿公里,端到端全场景智能驾驶即将开启先锋测试。雷军在微博中表示:「我们任务从最早的7万,提高到10万,到12万,最后13万。
极客公园 2024-12-29
前段时间,估计很多网友,都看到那新闻了,一辆小米SU7因驾驶员操作不当,冲下20米山坡,经过翻转后被树木挡住,车辆撞击惨重,安全气囊全部弹出,玻璃全碎,整车损毁严重,基本上是报废了。
科技plus 2024-12-29
据CNMO了解,高刷新率屏幕不仅能提升操作的流畅度,还能改善画面显示效果,并有助于减轻眼睛疲劳,对于苹果粉丝来说,这无疑是个好消息。
手机中国 2024-12-29
南方都市报 2024-12-29
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1