近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
近期,华为Pura70系列、MateX5等多款手机开启降价促销优惠。其中,华为Pura70Ultra最高优惠2000元,MateX5优惠2500元。
北京商报 2024-12-30
“AI+医疗”正以前所未有的速度进入发展快车道。这在驱动医疗服务效率和准确性在不断提升的同时,也为患者带来更加个性化和精准的治疗方案。飞医疗正式在港交所主板上市,发售价为每股82.8港元,股票代码为“2506.HK”。
格隆汇 2024-12-30
混元大模型提供的超强脑力,为启元赋予了万亿级参数和7万亿Tokens,通过采用的大量医学数据,能涵盖285万医学实体、1250万医学关系以及98%的医学知识和文献,最终训练出了新款能够懂医学的医疗大模型,并且也是全球首个临床可用的医疗大模型。
封面新闻 2024-12-30
该方法将输入数据编码为字节序列,有效保留了数值数据的内在结构和数量完整性,并避免了通过分割或合并数值和文本信息引起的歧义。这种创新的分词方法展示了在统一表示不同数据模态(包括文本、数值、图像)方面的能力,这对于大规模实验中产生的以二进制格式存储的科学数据尤为重要。
DeepTech深科技 2024-12-30
快科技12月30日消息,小米创始人雷军在微博上分享了2025年的首款新机——REDMITurbo4的消息。此外,该款手机在摄像头区域同样运用了红色元素作为装饰,每个镜头周围都围绕着一圈精致小巧的红色圆圈,进一步增强了产品的辨识度与美观性。
快科技 2024-12-30
工信部发布第一批符合新版工业机器人行业规范条件企业名单,36个上榜。
证券时报 2024-12-30
#年货节好物集市#万和燃气热水器以其卓越的性价比在市场上赢得了广泛的认可。作为技术创新的先行者,万和自1992年发明中国第一台超薄型水控式全自动燃气热水器以来,不断创新,引领行业的发展。万和的产品以更安全节能以及极致的舒适体验,成为行业发展的标杆。
小米地瓜 2024-12-30
每日经济新闻 2024-12-30
2019年劳动节的时候,我回家给外公外婆带了两台智能手机。第一组数据,《2023年度国家老龄事业发展公报》显示,截至2023年末,全国60周岁及以上老年人口29697万人,占总人口的21.1%;第二组数据,《中国互联网络发展状况统计报告》显示,我国网民规模近11亿人,60岁及以上网民群体规模已达1.4亿。
趣写观点 2024-12-30
南都湾财社记者获悉,12月29日,广东省通信学会智能光网专业委员会成立仪式在广州举行,会上正式宣布启动广东省万兆智能光网建设,这一举措将为广东数字经济发展注入强劲动力,加速推进广东新型信息化基础设施建设步伐,在通信领域具有里程碑意义。广东省作为经济强省和科技创新前沿阵地,对高速、稳定、智能的网络需求极为迫切。
南方都市报 2024-12-30
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1