近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
近日,清华大学自主研制的新型发动机“清航叁号”成功完成了飞行试验,这是一种用于宽速域飞行器的特殊动力系统,虽然“清航叁号”具体是一种什么样的发动机没有报道出来,只说它采用了一种新颖的"爆震燃烧技术",但从北京清航公司总经理助理曹桢在去年的一次演讲中,我们可见发现一些端倪。
鼎盛軍事 2024-12-31
日迈月征,华年肇启2025新年的钟声即将敲响在这辞旧迎新之际你准备发条什么样的朋友圈呢?在深圳,中国电信“爱心翼站”主动关爱环卫工等户外劳动者,为“城市美容师”送上一份清凉。在长江航道武汉段,电信人完成5G-A通感一体试验,让“长江大保护”新添潮科技!2024年,电信人始终闪闪发光,星夜兼程是他们诠释奉献的真实写照。
中国电信集团有限公司 2024-12-31
日前,光明大讲堂迎来了“科聚想象,幻动未来”科幻月系列讲座的收官之作(总第305期)——《另一种表达:历史、文化与科幻的交织叙事》。
深圳商报 2024-12-31
【CNMO科技消息】近日,华为官方发布“见非凡”品牌合集视频上线,宣告历时两个月的见非凡品牌计划暂时落下帷幕。
手机中国 2024-12-31
据“工信微报”微信公众号消息,为落实《氢能产业发展中长期规划(2021—2035年)》,积极拓展清洁低碳氢在工业领域应用,加快技术装备产品升级,促进氢能产业高质量发展,工业和信息化部、国家发展改革委、国家能源局近日联合印发《加快工业领域清洁低碳氢应用实施方案》(工信厅联节函〔2024〕499号,以下简称《实施方案》)。
南方日报 2024-12-31
“综合评估表明,DeepSeek-V3已成为目前最强大的开源模型,性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。”评测结果显示,DeepSeek-V3的性能已经成为目前最强大的开源模型,同时在多个主流评测基准上可媲美目前最强大的闭源模型,特别是在代码和数学方面。
搜狐科技 2024-12-31
蛇的演化谜题、微重力燃烧实验的未来、大模型带来的机遇和挑战……中国科学院2025跨年科学演讲活动12月31日下午启动,以融媒直播形式,举办专家演讲、圆桌会谈等系列活动,为公众奉上一场科普“盛宴”。据悉,跨年科学演讲活动是中国科学院的品牌科普活动之一,活动自2019年首次举办以来,内容、形式不断丰富、创新,助力营造良好科学氛围。
新华社 2024-12-31
在这个过程中,也伴随着制药行业在安全性、合规性等方面的严格要求。在AI驱动的药物开发领域,AI1.0和AI2.0可以分别对应不同的技术和应用:AI1.0主要指传统的AI技术,这些技术通常侧重于数据的分析、分类…
融资中国 2024-12-31
IT之家12月31日消息,中国电信今年7月公布了一款《健身环大师》产品,在近日受到了网友关注。不少网友认为该设备功能与2019年任天堂推出的《健身环大冒险》非常相似。IT之家从官方介绍得知,《健身环大师》是一款基于IPTV电视大屏的家庭体感健身互动产品,将健身与游戏相结合,一边游戏一边健身。
IT之家 2024-12-31
最近有港媒援引中国学术期刊《电信科学》论文,称中国已经成功研发出了全球首个军用移动5G基站。【中国航展上的国产无人战车】据悉,该型移动基站的覆盖半径高达3公里,并可以为范围内的至少1万个联网设备或者说军用机器人,提供前所未有的高速、低延迟和极其安全可靠的数据交换服务。【港媒报道中国的5G移动基站】这是个什么概念呢?
张学峰看空天 2024-12-31
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1