近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
“程序怎么运行不了,不应该啊?” “程序怎么能运行了,不应该啊!” 这句话是不是让程序员朋友们的 DNA 动了呢?
程序员鱼皮 2024-12-30
将“要使用本计算机,用户必须输入用户名和密码”这一项关掉。这样以后启动就可以直接进入桌面,不需要输入密码了。
Vic_wkx 2024-12-30
学子不才,初学useEffect ,写了篇文章进行总结useEffect执行机制+清理副作用。如果有理解不当,还请大佬轻声指点。 先聊聊副作用....
ys指风不买醉 2024-12-30
2024关键角色之消费盛典圆满落幕
未来一氪 2024-12-30
ChangeSpeed类是Manim库中用于修改动画速度的类。 它提供了一种灵活的方式来控制动画的播放速度,使动画在不同时间段内以不同的速度播放,从而创造出更加丰富多样的动画效果。 比如,在创建包含多
databook 2024-12-30
在3D数据处理和计算机视觉领域,点云技术扮演着至关重要的角色。Point Cloud Library (PCL) 作为最广泛使用的开源C++库之一,提供丰富的算法和工具来处理大规模的3D点云数据。
小码编匠 2024-12-30
聚焦科技新品、传统节日消费、食品安全。
世研大消费指数 2024-12-30
大湾区第一条地铁环线,对广州意味着什么?
新周刊 2024-12-30
体育产业嘉年华在京举办,探讨体育未来。
在电子商务领域,用户评论是了解产品口碑和市场反馈的重要渠道。亚马逊作为全球领先的电商平台,拥有海量的商品评论数据。这些数据对于市场分析、产品改进和用户体验优化具有极高的价值。
onejason 2024-12-30
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1