国外Java工程师力证：GPT-4不能解决逻辑谜题，但确实具备推理能力

作者：新智元发布时间：2023-10-30

GPT-4

【导读】IMG Arena的高级软件工程师 Johan LAJILI认为在LLM能够理解概念、通过图灵测试时，我们就该承认它具有推理能力了。

GPT-4或LLM有推理能力吗？这是个存在已久的争议性问题。

有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索，并不具备真正的推理能力。

但也有大量的论文研究宣称LLM在多项推理任务中表现优异。

现在，来自IMG Arena的高级软件工程师 Johan LAJILI在自己的博客中发表了文章，坚定地支持LLM具有「智能」、「推理」以及「逻辑」的能力。

并且，面对现有的诸多对LLM推理能力的质疑，Johan也给出了相当详细的解释。

博客地址：https://lajili.com/posts/post-3/

那么，就让我们来看看，Johan是如何证明LLM是具备推理能力的。

LLM只是一个「字词接龙」？

「LLM只是一个预测下一个单词的模型」，这是反对LLM具有推理能力的主要观点。

这个观点通常来自于那些精通技术或人工智能的人，实际上，这个说法也是正确的。

在进行工作时，GPT-4每次只能预测一个单词（或者更具体地说是一个token）。用户给它一个提示或一段需要填充的文本时，它就会使用其神经网络找到最可能跟在后面的单词。

但是，将LLM的算法与智能手机键盘上的单词建议算法相提并论是相当短视的。

事实上，为了能够准确预测具有意义的句子，GPT-4必须具备一种表示概念的内部方式，例如「对象」、「时间」、「家庭」以及其他一切的可以被表述的存在。

这不仅是找到一个与前一个词有关联的词语，LLM还需理解这些词语的含义，才能准确地回复用户提出的问题。

而LLM对概念的理解是通过大规模训练建立起来的。

通过这个过程，可以证实LLM具有对「概念」的概念，即它们可以对物理世界中的事物以及它们之间的相互作用进行表示。

这意味着GPT-4不仅可以预测下一个词语，还可以理解更高层次的语义概念，使其能够生成连贯且有意义的文本。

但只能够理解「概念」还不足以进行推理，因为推理还要求能够组合不同的概念去解决问题。

LLM无法解答X谜题与逻辑问题

随着人工智能技术的进步，传统的图灵测试，即让人类分辨与自己对话的是不是人工智能，在ChatGPT出世后失去了效用。

现在的图灵测试变得更加复杂。

同时，一些声称能够检测出内容是否由人工智能生成的公司也陆陆续续出现，但这些尝试基本上都失败了。

此外，对于人工智能生成的内容，连专业的语言学家都有一半的概率都无法区分辨认。

这些尝试检测人工智能生成内容的失败恰恰证明了我们不再区分人与人工智能二者生成的内容。

现在对人工智能生成内容进行区分时，通常是通过一些明显的迹象，比如句子中出现的「根据我在2021年9月之前的训练...」此类表述。

但这对人工智能是不公平的。

如果我们唯一能用来识别它的是其自身的一些写作习惯，那么我们显然已经到了一个承认它的写作技巧与人类相似的阶段。

回到LLM能否推理和逻辑谜题的问题上。

Jeremy Howard在他的演讲中很好地解释了LLM如何进行推理。

通常，一个优秀的、系统的Prompt会对GPT-4的结果产生巨大影响。

如果用户能够详细说明问题背景和逻辑步骤，GPT-4通常可以解决这些谜题。

如微软亚洲研究院、北大、北航等机构的研究人员，通过97个回合的「苏格拉底式」严格推理，成功让GPT-4得出了「P≠NP」的结论。

论文地址：https://arxiv.org/abs/2309.05689

与人类不同，GPT-4没有思维和口头语言之间的区分。

对于人类来说，在不思考或下意识的情况下解决问题时，意味着问题非常简单，这本质上是凭记忆回答的。

如在计算2x8时，我们会非常迅速地得出答案是16，此时我们的大脑没有经过任何思考。

但如果是解决一个复杂的数学问题，或猜一个谜语，一个编程问题，我们在回答问题前就得在脑海中思考一番了。

而这，就是推理。

更复杂的问题可能需要我们首先考虑如何解决它，然后再尝试解答。

在这方面，GPT-4与人类没有区别。

但GPT-4的思考过程作为回应的一部分是可以被看到的。

也许未来的GPT-5将有一个「思考」部分的响应，但不会默认显示出来。

在GPT-4能否具有推理能力这一点上，实际上只涉及成本以及效率的问题。

就像在估算餐厅的餐费或进行税务申报时不会有相同程度的双重检查一样，让GPT-4对用户提出的每个问题都进行一番详细的论证是非常低效的。

LLM的幻觉和意识

关于LLM的另一个经典问题是这些模型存在着偏见和幻觉等问题。

这的确是一个棘手的难题，但这不代表LLM不能进行推理。

举个例子，人无法避免偏见。有些人会意识到这一点，而另一些人可能从未思考过这个问题。

在近代以前，人们还坚信地球是宇宙的中心，认为空气就是「无」。

但我们可以因此下定论说近代以前的人都没有推理能力吗？

同样地，模型会出错也不意味着模型不会推理。

因为正确或者持续正确并不是推理的定义，而是全知的定义。

但关于GPT-4是否存在意识，我的回答是没有。

意识的存在是非常哲学性的问题，一定程度上也取决于个人的看法。

但我认为意识是在很长一段时间内产生的，并需要一个「自我」来照顾。

每当用户打开GPT-4，选择在一个聊天框开始对话时，这实际上是在创造一个全新的存在。

对话结束后，这个存在要么被删除。要么保持在静态状态。

缺乏长期记忆，缺乏情感，不能自发地对外部刺激做出反应，都是阻碍意识产生的限制因素。

但我们也可以乐观地相信这些问题会在未来被解决。

也许，现在就有一群聪明人正在研究这些问题。

而GPT-4是否存在意识，只是关于「意识」这个谜题的一小部分。

参考资料：

https://lajili.com/posts/post-3/

本文来自微信公众号“新智元”（ID:AI_era），编辑：Lumina，36氪经授权发布。

近期资讯

微星推出新款24.5寸显示器：色彩显示高达120%

分辨率为1920x1080，响应时间低至0.5ms，刷新率高达300Hz。在色彩显示方面，其典型对比度为1000:1，AdobeRGB色域覆盖率为87%，DCI-P3色域覆盖率为90%，sRGB色域覆盖率为120%。

中关村在线 5小时前

“有一种骄傲是祖国！” 发射现场观众共同见证“神舟”升空激动时刻

央视网消息：10月30日，神舟十九号载人飞船在酒泉卫星发射中心发射升空，在发射现场，观礼的人们共同见证了这一激动时刻。凌晨4时27分，随着倒计时的结束，搭载神舟十九号载人飞船的长征二号F遥十九运载火箭在酒泉卫星发射中心点火发射，划破天际，直冲云霄。火箭的尾焰在天空中留下了一道美丽的轨迹，人们的欢呼声和掌声此起彼伏。

光明网 5小时前

第五次太空会师 “70”“80”“90”后齐聚天宫

30日，在神舟十九号载人飞船与空间站组合体成功实现自主快速交会对接后，神舟十九号3名航天员顺利进驻中国空间站，与神舟十八号3名航天员顺利会师。至此，“70后”“80后”“90后”航天员齐聚“天宫”，完成中国航天史上第5次“太空会师”。执行神舟十九号载人飞行任务的航天员乘组由“70后”蔡旭哲，“90后”宋令东、王浩泽组成。

光明网 5小时前

IT之家 5小时前

“8颗行星”还是“八大行星”？不少人弄错

“8颗行星”还是“八大行星”？10月29日，长江日报记者在网上搜索的结果显示，无论是Ai智能回答还是百度百科介绍，均为“八大行星”，而小学《科学》教材中的表述是“8颗行星”。一位大学教授担任小学科学副校长时，科学课上听到授课教师说太阳系有“8颗行星”，这让他很诧异。

光明网 5小时前

be quiet! 推出 PURE POWER 12 系列直出线金牌 ATX 3.1 电源

IT之家10月30日消息，bequiet!德商德静界北京时间昨日正式推出了PUREPOWER12系列ATX3.1金牌电源。PUREPOWER12包含550W、650W、750W、850W、1000W五个功率规格，属于中高端电源中目前已很少见的非模组直出线型号。

IT之家 5小时前

海力达取得弹片测试夹持装置及弹片检测器专利，更易对弹片进行抵持以进行测量

金融界2024年10月30日消息，国家知识产权局信息显示，海力达汽车科技有限公司取得一项名为“弹片测试夹持装置及弹片检测器”的专利，授权公告号CN221882969U，申请日期为2023年10月。

金融界 4小时前

芝研智能取得挤压测漏装置专利，检测效果更加准确

金融界2024年10月30日消息，国家知识产权局信息显示，芝研智能科技（嘉兴）有限公司取得一项名为“一种挤压测漏装置”的专利，授权公告号CN221882967U，申请日期为2024年3月。专利摘要显示，本实用新型提供了一种挤压测漏装置，属于包装气密性检测技术领域。

金融界 4小时前

国外Java工程师力证：GPT-4不能解决逻辑谜题，但确实具备推理能力

LLM只是一个「字词接龙」？

LLM无法解答X谜题与逻辑问题

LLM的幻觉和意识

推荐体验

相关资讯

比尔盖茨：暂停AI训练不能解决问题

比尔盖茨回应暂停训练AI：这并不能解决问题！

比尔·盖茨反击马斯克：暂停AI的发展并不能解决问题

比尔·盖茨公开表态：暂停大型实验，不能解决人工智能面临的问题

CV工程师变成GPT-CV工程师

近期资讯

微星推出新款24.5寸显示器：色彩显示高达120%

“有一种骄傲是祖国！” 发射现场观众共同见证“神舟”升空激动时刻

第五次太空会师 “70”“80”“90”后齐聚天宫

小米15 Pro有线快充“反向升级”！但电池容量猛增

为AI提速，墨云藏境系列DDR5实测体验

努比亚 12 周年庆典暨星云 AIOS 沟通会 11 月 6 日召开

“8颗行星”还是“八大行星”？不少人弄错

be quiet! 推出 PURE POWER 12 系列直出线金牌 ATX 3.1 电源

海力达取得弹片测试夹持装置及弹片检测器专利，更易对弹片进行抵持以进行测量

芝研智能取得挤压测漏装置专利，检测效果更加准确

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响