近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
以玩出热雪,各有各的YOUNG为主题的潮玩冰雪季已经落下帷幕,作为一场有趣的线下科技盛会,现场可以说吸引到了不少用户参与。如果你是一位资深游戏爱好者,尤其是射击游戏爱好者的话,一款好显示器对实力的提升是显而易见的,尤其是国内游戏厂商陆续推出了多款体验良好的射击网游,其中以《三角洲行动》《漫威争锋》等热门游戏被大家熟知。
中关村在线 2024-12-31
频传,成功中标湖北省应急救援中心航空应急救援低空联动及指挥调度模式研究项目。该项目旨在有效落实国家关于加强应急管理体系和能力建设的总体要求,并积极响应湖北省对于提升航空应急救援能力的需求。
每日经济新闻 2024-12-31
近日,中国机器人创业公司宇树科技发布了最新机器狗产品B2-W的演示视频在全球范围内掀起了轩然大波,不少国外网友都表示被中国的科技实力震撼。它能够用四足、双足、单足快速点地的方式轻松完成360°旋转跳跃,动作流畅自然,仿佛打破了传统机械的束缚。
前瞻网 2024-12-31
中新网12月31日电综合报道,当地时间12月30日,印度启动了首次太空对接任务。当晚10时左右,搭载两个小型航天器的PSLV-C60火箭在印度萨蒂什·达万航天中心成功发射,入轨后的航天器将执行太空对接实验(SpaDeX)。
光明网 2024-12-31
E公司记者最新获悉,近日,洪荒70高温超导托卡马克成功进行了超过标准设计工况的通流实验,在该实验中,托卡马克中心场强达到1.02特斯拉,最高场强达到3.1特斯拉,装置性能显著提升。洪荒70是能量奇点研发建设的全球首台全高温超导托卡马克实验装置。
和讯网 2024-12-31
小伙伴们一定会拉上自己的朋友来一场紧张刺激的游戏对决吧,游侠加速器给你最稳定的体验,极致的丝滑让你的钢枪振刀,更快更稳。•专为高频互动的竞技类游戏优化,保障网络稳定性,让你全程不卡顿、不掉线。•面对复杂网络环境,游侠加速器通过多重智能优化技术,让跨服游戏连接更快、更稳定。
游侠网 2024-12-31
2024年的最后一天,让我们盘点一下航空发动机制造商们的年度关键词。2024年11月,第15届中国航展召开,中国航发展出了CJ1000A发动机、AES100发动机、AEF1200发动机等多款明星产品。
看航空 2024-12-31
方、贵州海之晨人工智能科技有限公司等科技企业作相关主题演讲,通过分享数字经济创新成果与实战案例,全面呈现了前沿技术在赋能产业升级上的智能化应用。贵安发展集团中软云智经济运行解决方案专家李鹏飞说,这次公司发布的场景主要围绕区域经济分析、行业分析、产业分析,当前,系统已建成,正在对接贵安发展云的大模型展开赋能。
贵阳网 2024-12-31
搜狐号小秘书 2024-12-31
简单来说,读博的优势在于能够深入学术研究,提升个人专业素养,为未来职业发展奠定坚实基础;而劣势则可能是经济压力、时间长、不确定性大。
新京报评论 2024-12-31
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1