近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
钛媒体App12月26日消息,兆龙互连接受机构调研时表示,就高速产品的类别而言,公司涵盖了从100G、200G到400G、800G的产品线。随着技术的推进,400G、800G高速率产品需求量将会呈现快速增长的趋势。相比以往,公司高速业务今年整体增长较快,其中第四季度尤为明显。
钛媒体快报 2024-12-26
快科技12月26日消息,大疆发布DJIFlyApp新版本1.15.8,更新多项重磅功能,现已支持抖音直播、微信登录和DJNeo全屏操控等多个重磅功能。新版本中,用户无需下载抖音,便可在手机和遥控器上进行抖音直播。起飞后,在飞行界面点击右上角[…」-「图传」-「选择直播平台」-「抖音」,即可使用抖音直播功能。
驱动之家 2024-12-26
GoMate是一款全尺寸的轮足人形机器人,全身拥有38个自由度,采用可变轮足移动结构,融合了四轮足、两轮足两种模式。目前主流厂商在手订单累计已超过1万台,预计2025年全球人形机器人出货将达到1万一2万台。
华尔街见闻 2024-12-26
IT之家12月27日消息,小米“超级小爱”现开启内测招募,详细说明显示超级小爱内测为“OS2Beta(超级小爱)”内测的延续,体验形式上从推送Beta内测转换为推送Apk内测。
IT之家 2024-12-27
随后国家级重点实验室、人工智能平台联合高校科技人才同频共振,科技与教育匠心融合成果:智能干预机器人——“吉祥”老师精彩亮相,与“星宝”共同表演《小猪吃的饱饱》、《元日》、《阳光彩虹小白马》,充分彰显了科技与教育的匠心融合。京源学校的同学们以京剧联唱《百花齐放》展示了青春的力量与梦想,唱腔悠扬,仿佛带领人们穿越时空,感受青春的灵动与憧憬。
北京日报 2024-12-26
12月26日,“数聚珠澳・低空领航”学术论坛暨研发机构揭牌仪式在珠海举办。仪式上,珠海科技学院成立“低空经济产业学院”,这标志着培育珠海低空经济应用型人才工作进入实质性阶段,助力珠海打造“天空之城”。
南方都市报 2024-12-26
翻看手机行业的演替史,从商务手机,到音乐手机、美颜手机,均经历过“为何不直接买旗舰”的灵魂拷问,而被拷问过的“特长生”们无一不走向黄昏,成为了历史滚滚车轮下的牺牲者。
雷科技 2024-12-26
12月26日,我国首个国家级海上风电研究与试验检测基地传动链平台在福建福清投运。这个平台具备国际先进技术水平和较为全面的测试能力,可开展25兆瓦级风电机组全工况模拟试验。据了解,海上风电试验基地包括陆上检测中心和试验风电场两部分。
央广网 2024-12-26
人工智能(AI)软件开发商PalladyneAICorp.(PDYN)上涨77.53%,报8.77美元。日前,这家注于机器人系统自主化的软件公司宣布,PalladynePilotAI软件平台支持第三方无人机识别、排序、自动追踪地球目标。
每日经济新闻 2024-12-26
【CNMO科技】在接下来的几个月里,显卡市场的竞争格局将发生剧变。这款GPU不仅对AMD来说至关重要,对整个显卡市场也具有深远影响。在Steam的硬件统计中,英伟达的RTX3060等显卡常年占据领先地位,这反映出大多数用户并不需要顶级显卡,而是追求一款能够流畅运行最新游戏的日常显卡。
手机中国 2024-12-26
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1