近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
快科技12月27日消息,今日,美团宣布将建立算法公开机制,持续推动算法向上向善。美团提到,国家有关部门近期组织开展“清朗·网络平台算法典型问题治理”专项行动,提出了算
拾柒 2024-12-27
快科技12月27日消息,2024年即将落幕,Valve公布了Steam平台总收入最高的游戏榜单,《黑神话:悟空》以其卓越的表现成功跻身铂金级第一梯队。这份榜单并没有披露具体的游戏数据,而是将其分为
黑白 2024-12-27
12月27日消息,据媒体报道,在《亮剑》中出演“鬼子大佐”的演员杨清文发视频称,自己确诊了甲状腺癌,已经完成了切除手术。据了解,杨清文出生于河北省承德市,曾因会日语,从剧组
振亭 2024-12-27
快科技12月27日消息,联发科官方宣布,联发科天玑系列移动平台现已针对微软最新推出的Phi-3.5小语言模型(SLM)进行了专门适配与优化。该优化目前已经落地天玑9400、天玑9300两款旗舰芯片,以及
上方文Q 2024-12-27
快科技12月27日消息,小米最新推出的一款产品又卖爆了,据王化介绍,米家智能健腹轮众筹上线仅50小时,已经全部售罄。米家智能健腹轮众筹定价为179元,建议零售价是249元,预计将在不久后上架
建嘉 2024-12-27
快科技12月27日消息,壹号本游侠X1 Pro游戏主机今日正式上市,首发8699元。据悉,新款游戏主机搭载锐龙AI9 HX 370芯片,12核心24线程,内置Radeon 890M核显,加上XDNA 2架构NPU,AI总算力达80
鹿角 2024-12-27
近日,国际数据公司(IDC)发布《IDCMarketScape:中国软件定义广域网管理服务2024年厂商评估》报告。南凌科技(300921)SD-WAN被评为市场领导者,拥有出色的骨干网基础设施、安全产品集成能力、云集成能力、研发创新战略,完善的服务体系、生态体系,清晰的产品策略。
证券时报 2024-12-27
快科技12月27日消息,据媒体报道,梅赛德斯-AMG官方宣布旗下AMG GT 63 S E PERFORMANCE将1月6日正式上市。值得一提的是,该车搭载了由4.0T双涡轮增压V8发动机和后电机组成的插电式混合动力
王略 2024-12-27
快科技12月27日消息,日前,一网友在网上发帖维权称,自己的车被隔壁车位的车引燃了,结果对方保险拒赔。车主介绍称,11月27日时,小区地下车库发生车辆自燃事故,她的大众ID.3电动车被烧成了
若风 2024-12-27
快科技12月27日消息,日前,全国工业和信息化工作会议在京召开。会议强调,2025年力争累计建成5G基站450万座以上,并推动5G演进和6G技术创新发展。工信部数据显示,截至11月末,我国5G基站总
随心 2024-12-27
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1