当前位置:首页|资讯|ChatGPT|Bard|谷歌|大语言模型|人工智能

为什么像 ChatGPT 和 Google Bard 这样的LLM数学不好

作者:MoPaaS魔泊云官方账号发布时间:2023-12-22

为什么像 ChatGPT 和 Google Bard 这样的LLM数学不好

【编者按:随着大型语言模型(LLMs)的兴起,人工智能技术被广泛应用于各个领域,其中包括数学问题的解决。LLMsGPT系列和谷歌的FunSearch方法被认为是解决复杂问题和提供准确答案的利器。然而,在数学领域中,尤其是在执行数学计算方面,LLMs的实际表现却存在诸多局限性。

XDA 社区首席技术编辑Adam Conway,近期在XDA上发布了:“Why LLMs like ChatGPT and GoogleBard are bad at math”(为什么像 ChatGPT Google Bard 这样的 LLMs 数学不好),内容突显了LLMs在数学领域的矛盾性:它们能够解释数学概念,但在执行数学计算时存在准确性问题。尽管LLMs展示了在创造性思维方面的潜力,例如谷歌的FunSearch方法成功应用于数学创新,但仍需要人类工程师的引导和辅助来规避错误和不准确性。

要点

大型语言模型(LLMs)在解决数学问题方面不可靠,不应依赖其提供准确答案。即使是最好的LLMs在数学计算方面的准确率也很低。

随着计算中的数字变得更大,LLMs的准确性急剧下降,这是因为它们的训练集中存在更大的问题差距。

当与评估器和迭代过程配合使用时,LLMs可以作为数学中强大的工具,正如Google的FunSearch方法所展示的那样。然而,LLMs仍然需要人类工程引导来引导它们朝着正确的方向发展。

当涉及到大型语言模型(LLM)时,你可能会认为它们是解决大多数问题的灵丹妙药。你可以让它规划你的一天,或者几乎问它任何问题,知道它会尽最大努力给你一个全面的答案。然而,有一件事是你绝不能依赖LLM的,那就是数学。

说实话,LLMs可以在大型数学数据集上训练,识别模式,并在数字较小的情况下接近真实答案。即便如此,你最好还是直接使用计算器。

LLMs在数学方面表现糟糕

即使是最顶尖的LLMs也有相当糟糕的准确率

已经有证据表明LLMs在数学方面的表现很差,而讽刺的是,在一篇名为《GPT无需计算器即可解决数学问题》的论文中就有相关内容。清华大学的研究人员展示了如何使用训练过的数学计算模型(名为MathGLM)来以合理的准确率解决问题。

正如你从以上的计算中看到的那样,MathGLM在性能上明显优于GPT-4和ChatGPT。然而,有一个问题,即使是对于5位数的计算,2亿参数模型所能达到的最佳准确率也只有85.16%。无论如何,10,000*5仍然是50,000,如果一个LLM接近但不是这个结果,那么它仍然是错误的答案。而计算器在所有这些问题上都能以100%的准确率100%的时间解决。

随着数字变得更大,准确性也急剧下降。这很可能是因为训练集中使用了较小的计算,随着数字增大,训练集中问题之间的差异预计会变得更大。它并不是在进行计算,而是在进行模式匹配。如果你想使用MathGLM,你可以查看团队的GitHub。只是要知道,你需要一台性能强大的个人电脑来在本地运行它。

Google的FunSearch展示了如何正确地利用LLMs进行数学计算

已经表现出超越人类的能力

谷歌最近因其FunSearch方法登上了头条,该方法将预先训练的LLM与自动评估器配对,以防止产生幻觉和不正确的想法。它本质上是一个迭代过程,将LLM的创造力与能够在其走向错误方向时将其推回一步的机制相结合。LLMs在数学方面表现不佳,但它们擅长创造性思维。

FunSearch通过采用以代码形式描述数学问题的方式来运行。这个描述提供了一个评估输出的过程,并初始化了一个程序池以开始执行。在FunSearch的每个迭代中,系统将选择一些程序并将它们提供给LLM,例如PaLM 2,然后在此基础上构建新的程序。最优秀的程序被选出进行迭代改进,从而形成了一个自我完善的循环。

在这种情况下,FunSearch成功找到了远远超过一些世界顶尖数学家所知的最佳结果的最大Cap集。研究人员在发表在《自然》杂志上的论文中写道:“据我们所知,这是第一次使用LLM找到了一项科学发现——关于一个臭名昭著的科学问题的新的可验证知识。”

LLMs在数学方面表现不佳,但它们仍然是强大的工具

不过,对于数学问题,最好还是使用计算器

正如谷歌所展示的,LLM可以是一个强大的数学工具,但它不会独立解决问题并生成新的想法,没有任何外部帮助。谷歌围绕FunSearch构建的评估器允许它通过对LLM的创造力进行广泛迭代来解决数学问题,LLM经常会产生幻觉。这并不是LLM在数学方面表现出色,而是工程师善于引导它走向正确的路径。

如果你让LLM向你解释一个数学概念,比如如何将两个矩阵相乘,它很可能会告诉你如何正确进行操作。但是如果你要求它直接执行矩阵相乘,那么答案很可能是错误的。最近我让ChatGPT计算两个矩阵的乘积,得到的答案的维度完全错误。然而,如果我询问它如何相乘两个矩阵,得到的答案是正确的。

换句话说,如果你试图使用像ChatGPT或Google Bard这样的LLM来帮助你理解数学,那就请它向你解释概念,而不是要求直接给出答案。如果你幸运的话,答案可能在它的训练集中,但是最好还是自己学会如何做,而不是一开始就依赖它。

源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

.data_color_scheme_dark{--weui-ORANGERED: #ff6146;--weui-BG-0: #111;--weui-BG-1: #1e1e1e;--weui-BG-2: #191919;--weui-BG-3: #202020;--weui-BG-4: #404040;--weui-BG-5: #2c2c2c;--weui-FG-0: rgba(255, 255, 255, .8);--weui-FG-HALF: rgba(255, 255, 255, .6);--weui-FG-1: rgba(255, 255, 255, .5);--weui-FG-2: rgba(255, 255, 255, .3);--weui-FG-3: rgba(255, 255, 255, .1);--weui-FG-4: rgba(255, 255, 255, .15);--weui-FG-5: rgba(255, 255, 255, .1);--weui-RED: #fa5151;--weui-REDORANGE: #ff6146;--weui-ORANGE: #c87d2f;--weui-YELLOW: #cc9c00;--weui-GREEN: #74a800;--weui-LIGHTGREEN: #3eb575;--weui-BRAND: #07c160;--weui-BLUE: #10aeff;--weui-INDIGO: #1196ff;--weui-PURPLE: #8183ff;--weui-WHITE: rgba(255, 255, 255, .8);--weui-LINK: #7d90a9;--weui-TEXTGREEN: #259c5c;--weui-FG: #fff;--weui-BG: #000;--weui-TAG-TEXT-RED: rgba(250, 81, 81, .6);--weui-TAG-BACKGROUND-RED: rgba(250, 81, 81, .1);--weui-TAG-TEXT-ORANGE: rgba(250, 157, 59, .6);--weui-TAG-BACKGROUND-ORANGE: rgba(250, 157, 59, .1);--weui-TAG-TEXT-GREEN: rgba(6, 174, 86, .6);--weui-TAG-BACKGROUND-GREEN: rgba(6, 174, 86, .1);--weui-TAG-TEXT-BLUE: rgba(16, 174, 255, .6);--weui-TAG-BACKGROUND-BLUE: rgba(16, 174, 255, .1);--weui-TAG-TEXT-BLACK: rgba(255, 255, 255, .5);--weui-TAG-BACKGROUND-BLACK: rgba(255, 255, 255, .05)}.data_color_scheme_dark{--weui-BTN-ACTIVE-MASK: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BTN-DEFAULT-ACTIVE-BG: rgba(255, 255, 255, .126)}.data_color_scheme_dark{--weui-DIALOG-LINE-COLOR: rgba(255, 255, 255, .1)}.data_color_scheme_dark{--weui-BG-COLOR-ACTIVE: #373737}.data_color_scheme_dark{--weui-BG-6: rgba(255, 255, 255, .1);--weui-ACTIVE-MASK: rgba(255, 255, 255, .1)}.rich_media_content{color:#000000e5;font-size:17px;font-size:var(--articleFontsize);overflow:hidden;text-align:justify}.rich_media_content{color:#ffffffa6;color:var(--weui-FG-HALF)}.rich_media_content{position:relative;z-index:0}.wxw-img{vertical-align:bottom}.rich_media_content:not(.old_list_style) .list-paddingleft-1,.rich_media_content:not(.old_list_style) .list-paddingleft-2,.rich_media_content:not(.old_list_style) .list-paddingleft-3{padding-left:2.2em}.rich_media_content:not(.old_list_style) .list-paddingleft-1 .list-paddingleft-2,.rich_media_content:not(.old_list_style) .list-paddingleft-2 .list-paddingleft-2,.rich_media_content:not(.old_list_style) .list-paddingleft-3 .list-paddingleft-2{padding-left:30px}.rich_media_content:not(.old_list_style) .list-paddingleft-1{padding-left:1.2em}.rich_media_content:not(.old_list_style).fix_apple_default_style .list-paddingleft-1{padding-left:1.5em}.rich_media_content.old_list_style .list-paddingleft-1,.rich_media_content.old_list_style .list-paddingleft-2,.rich_media_content.old_list_style .list-paddingleft-3{padding-left:0}.rich_media_content.old_list_style .list-paddingleft-1 .list-paddingleft-1,.rich_media_content.old_list_style .list-paddingleft-2 .list-paddingleft-2,.rich_media_content.old_list_style .list-paddingleft-3 .list-paddingleft-3{padding-left:1.2em}h1,h2,h3,h4,h5,h6{font-weight:400;font-size:16px}.rich_media_content p{clear:both;min-height:1em}td p{margin:0;padding:0}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]) .rich_media_content img:not(.wx_img_placeholder){filter:brightness(.8)}}@media screen and (min-width:1024px){body:not(.pages_skin_pc) :root{--appmsgPageGap: 20px}}:root{--articleFontsize: 17px}:root{--sab: env(safe-area-inset-bottom)}:root{--wxBorderAvatarRatio: 3}:root{--discussPageGap: 20px}:root{--appmsgPageGap: 20px}*{margin:0;padding:0}.rich_media_content *{max-width:100%!important;box-sizing:border-box!important;-webkit-box-sizing:border-box!important;word-wrap:break-word!important}body,.wx-root,page{--weui-BTN-HEIGHT: 48;--weui-BTN-HEIGHT-MEDIUM: 40;--weui-BTN-HEIGHT-SMALL: 32}body,.wx-root{--weui-FG-1: rgba(0, 0, 0, .55);--weui-ORANGERED: #ff6146;--weui-BG-0: #ededed;--weui-BG-1: #f7f7f7;--weui-BG-2: #fff;--weui-BG-3: #f7f7f7;--weui-BG-4: #4c4c4c;--weui-BG-5: #fff;--weui-FG-0: rgba(0, 0, 0, .9);--weui-FG-HALF: rgba(0, 0, 0, .9);--weui-FG-1: rgba(0, 0, 0, .5);--weui-FG-2: rgba(0, 0, 0, .3);--weui-FG-3: rgba(0, 0, 0, .1);--weui-FG-4: rgba(0, 0, 0, .15);--weui-FG-5: rgba(0, 0, 0, .05);--weui-RED: #fa5151;--weui-REDORANGE: #ff6146;--weui-ORANGE: #fa9d3b;--weui-YELLOW: #ffc300;--weui-GREEN: #91d300;--weui-LIGHTGREEN: #95ec69;--weui-BRAND: #07c160;--weui-BLUE: #10aeff;--weui-INDIGO: #1485ee;--weui-PURPLE: #6467f0;--weui-WHITE: #fff;--weui-LINK: #576b95;--weui-TEXTGREEN: #06ae56;--weui-FG: #000;--weui-BG: #fff;--weui-TAG-TEXT-RED: rgba(250, 81, 81, .6);--weui-TAG-BACKGROUND-RED: rgba(250, 81, 81, .1);--weui-TAG-TEXT-ORANGE: #fa9d3b;--weui-TAG-BACKGROUND-ORANGE: rgba(250, 157, 59, .1);--weui-TAG-TEXT-GREEN: #06ae56;--weui-TAG-BACKGROUND-GREEN: rgba(6, 174, 86, .1);--weui-TAG-TEXT-BLUE: #10aeff;--weui-TAG-BACKGROUND-BLUE: rgba(16, 174, 255, .1);--weui-TAG-TEXT-BLACK: rgba(0, 0, 0, .5);--weui-TAG-BACKGROUND-BLACK: rgba(0, 0, 0, .05)}body,.wx-root{--weui-BG-6: rgba(0, 0, 0, .05);--weui-ACTIVE-MASK: rgba(0, 0, 0, .05)}@media screen and (min-width:1024px){body:not(.pages_skin_pc){background:#191919;background:var(--weui-BG-2)}}@media(prefers-color-scheme:dark){body:not([data-weui-theme=light]).my_comment_empty_data{background-color:#111}}.wx-root,body{--weui-BTN-ACTIVE-MASK: rgba(0, 0, 0, .1)}.wx-root,body{--weui-BTN-DEFAULT-ACTIVE-BG: #e6e6e6}.wx-root,body{--weui-DIALOG-LINE-COLOR: rgba(0, 0, 0, .1)}.wx-root,body{--weui-BG-COLOR-ACTIVE: #ececec}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--appmsgExtra-BG: #121212}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--weui-ORANGERED: #ff6146;--weui-BG-0: #111;--weui-BG-1: #1e1e1e;--weui-BG-2: #191919;--weui-BG-3: #202020;--weui-BG-4: #404040;--weui-BG-5: #2c2c2c;--weui-FG-0: rgba(255, 255, 255, .8);--weui-FG-HALF: rgba(255, 255, 255, .6);--weui-FG-1: rgba(255, 255, 255, .5);--weui-FG-2: rgba(255, 255, 255, .3);--weui-FG-3: rgba(255, 255, 255, .1);--weui-FG-4: rgba(255, 255, 255, .15);--weui-FG-5: rgba(255, 255, 255, .1);--weui-RED: #fa5151;--weui-REDORANGE: #ff6146;--weui-ORANGE: #c87d2f;--weui-YELLOW: #cc9c00;--weui-GREEN: #74a800;--weui-LIGHTGREEN: #3eb575;--weui-BRAND: #07c160;--weui-BLUE: #10aeff;--weui-INDIGO: #1196ff;--weui-PURPLE: #8183ff;--weui-WHITE: rgba(255, 255, 255, .8);--weui-LINK: #7d90a9;--weui-TEXTGREEN: #259c5c;--weui-FG: #fff;--weui-BG: #000;--weui-TAG-TEXT-RED: rgba(250, 81, 81, .6);--weui-TAG-BACKGROUND-RED: rgba(250, 81, 81, .1);--weui-TAG-TEXT-ORANGE: rgba(250, 157, 59, .6);--weui-TAG-BACKGROUND-ORANGE: rgba(250, 157, 59, .1);--weui-TAG-TEXT-GREEN: rgba(6, 174, 86, .6);--weui-TAG-BACKGROUND-GREEN: rgba(6, 174, 86, .1);--weui-TAG-TEXT-BLUE: rgba(16, 174, 255, .6);--weui-TAG-BACKGROUND-BLUE: rgba(16, 174, 255, .1);--weui-TAG-TEXT-BLACK: rgba(255, 255, 255, .5);--weui-TAG-BACKGROUND-BLACK: rgba(255, 255, 255, .05)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--weui-BTN-ACTIVE-MASK: rgba(255, 255, 255, .1)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--weui-BTN-DEFAULT-ACTIVE-BG: rgba(255, 255, 255, .126)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--weui-DIALOG-LINE-COLOR: rgba(255, 255, 255, .1)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--APPMSGCARD-BG: #1E1E1E}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--APPMSGCARD-LINE-BG: rgba(255, 255, 255, .07)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--weui-BG-COLOR-ACTIVE: #373737}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--weui-BG-6: rgba(255, 255, 255, .1);--weui-ACTIVE-MASK: rgba(255, 255, 255, .1)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--discussInput-BG: rgba(255, 255, 255, .03)}}@media(prefers-color-scheme:dark){.wx-root:not([data-weui-theme=light]),body:not([data-weui-theme=light]){--nickName-FG: #959595}}

div.autoTypeSetting24psection > p,div.autoTypeSetting24psection > section{margin-bottom: 24px;}


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1