当前位置：首页|资讯

苹果公司研究“大语言模型推理能力”：可靠性堪忧！

作者：站长之家发布时间：2024-10-14

最近，苹果公司进行了一项关于大语言模型（LLM）推理能力的研究，引发了人们对这些模型在数学领域表现的关注。

众所周知，GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高，但研究人员对此结果的可靠性产生了质疑。因此，他们进行了大规模的研究，探讨当前最先进的开源和闭源模型的表现。

为了更好地评估模型的推理能力，研究团队引入了一种改进的基准测试 ——GSM-Symbolic。这个新基准测试使用符号模板生成多样化的问题，能够更好地控制评估过程，提供更可靠的指标。

研究发现，当问题中的数值被改变时，LLM 的表现明显出现波动。更有趣的是，随着问题中条款数量的增加，模型的表现显著下降。研究人员推测，这种表现的下降表明现有的 LLM 并不具备真正的逻辑推理能力，而是简单地模仿训练数据中的推理步骤。

在实验中，当仅增加一个看似相关的条款时，所有最先进模型的表现下降幅度高达65%。这些条款虽然与得出最终答案的推理链无关，却依然对模型的表现产生了巨大的影响。总体而言，这项研究为我们提供了对 LLM 在数学推理方面的能力和局限性的更深刻理解。

推荐体验

相关资讯

AI大模型：软件可靠性工程发展新思路

AI大模型：软件可靠性工程发展新思路 “软件定义”时代，大到智能汽车、现代飞机、智能工厂，小到手机、电视、智能家居等设备的日常运行都离不开软件系统的保驾护航。软件可靠性工程就像一块“试金石”，贯穿

AI大模型汽车

中国电子报 2023-05-23

ChatGPT通过美放射学委员会考试但搜集信息的可靠性仍然堪忧

来源：科技日报加拿大科学家在16日出版的《放射学》杂志上刊登新论文称，最新版本的ChatGPT通过了美国放射学委员会的考试，突出了大型语言模型的潜力，但它也给出了一些错误答案，表明人们仍需对其提供的答案进行核…

ChatGPT 大语言模型

中国网科技 2023-05-18

ChatGPT通过美放射学委员会考试，但其搜集信息的可靠性仍堪忧

科技日报记者刘霞加拿大科学家在16日出版的《放射学》杂志上刊登新论文称，最新版本的ChatGPT通过了美国放射学委员会的考试，突出了大型语言模型的潜力，但它也给出了一些错误答案，表明人们仍需对其提

ChatGPT 大语言模型

极目新闻 2023-05-18

AI大模型测评报告：数据隐私、技术可靠性为用户最大顾虑

AI大模型测评报告：数据隐私、技术可靠性为用户最大顾虑新京报2024-07-03 20:13发布于北京新京报官方账号新京报贝壳财经讯（记者韦英姿）7月3日下午，在新京报贝壳财经夏季年会“‘通’往未

新京报 2024-07-03

复杂推理：大语言模型的北极星能力

随着ChatGPT的出现，各大企业纷纷入局研究大语言模型。最近，也有很多小模型的研究取得了不错的对话能力，语言模型具有多维能力，那么什么是度量大语言模型潜力的关键因素？本文旨在探讨如何让大语言模型拥有强大的复杂推理能力，一起来看看吧。

大语言模型 ChatGPT

海外独角兽 2023-05-17

近期资讯

毛戈平更新招股书：今年上半年营收约20亿元，净利润同比增长41%至约5亿元

中国市场十大高端美妆集团中唯一的中国公司。

IPO早知道 2024-10-10

《如鸢》12日iOS流水5660万，同比《恋与深空》、《世界之外》能打否？

《如鸢》国庆公测表现强劲，出海成绩优异。

点点数据 2024-10-10

挤压碳酸饮料？养生饮品能否成为行业新宠？

无糖饮品市场增长，养生饮品逐渐流行。

全食在线 2024-10-10

“开店狂魔”瑞幸，开始付出代价

一年开万店，瑞幸却不那么赚钱了

DT商业观察 2024-10-10

获得阿里本地生活领投近亿元融资，茉莉奶白能跻身新茶饮头部吗？

获得阿里本地生活领投近亿元融资，茉莉奶白能跻身新茶饮头部吗？

趣解商业 2024-10-10

A股突然暴跌，情绪资本被套牢

跟上机构资本，还有机会吃上第二波。

牲产队 2024-10-10

东鹏特饮成糖分刺客，打工人还喝吗？

值得注意的警戒线

新消费101 2024-10-10

开主题乐园的海昌，盯上了高端酒店的生意

为何又看上高端酒店？

酒管财经 2024-10-10

对话Blueshirt董事总经理：中概股赴美IPO有望明年Q2进一步回升，中企需更早与投资者预热

中企赴美IPO趋势上升，需提前构建信任。

IPO早知道 2024-10-10

低调的王者：迁入高新技术公司最多的，竟然是南京

我国科技创新、产业升级的地域变迁。

36氪的朋友们 2024-10-10

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1