LeCun和xAI联创对呛，GPT-4重大推理缺陷无解？网友：人类也是“随机鹦鹉”

作者：新智元发布时间：2023-10-24

GPT-4

LeCun和xAI联创对呛，GPT-4重大推理缺陷无解？网友：人类也是“随机鹦鹉”

新智元报道

编辑：润

【新智元导读】LeCun和学界的其他研究人员再次炮轰LLM的推理能力，然后激起了众多网友讨论。作为xAI联创Christian Szegedy博士不经意透露出可能是xAI未来的技术方向。

最近，包括LeCun在内的一众大佬又开始针对LLM开炮了。最新的突破口是，LLM完全没有推理能力！

在LeCun看来，推理能力的缺陷几乎是LLM的「死穴」，无论未来采用多强大的算力，多广阔和优质的数据集训练LLM，都无法解决这个问题。

而LeCun抛出的观点，引发了众多网友和AI大佬针对这个问题的讨论，其中包括xAI的联合创始人之一Christian Szegedy。

AI科学家Christian Szegedy回复LeCun：

卷积网络的推理能力更加有限，但这并没有影响 AlphaZero的能力。

从两位大佬的进一步讨论中，我们甚至能窥探到xAI未来的技术方向——如何利用大模型的能力突破AI的推理能力上限。

而网友们在这个问题之下，对于LLM推理能力的宽容，也展现出了AI与人类智能关系的另一种思考：

人类也不是所有人都擅长推理，难道因为有人不擅长推理，就要否认人类智能的客观性吗？

也许人类和LLM一样，也只是一种不同形式的「随机鹦鹉」罢了！

大佬对话透露出xAI的技术方向

论文在arXiv上公布后，特别经过LeCun的转发，引起了网友和学者的广泛讨论。

马老板牵头成立的xAI的联合创始人，AI科学家Christian Szegedy回复到：

卷积网络的推理能力更加有限，但这并没有影响 AlphaZero的能力。

关键在于推理过程和建立的 (RL) 反馈循环。他认为模型能力可以进行极其深入的推理。（例如进行数学研究）

LeCun也直接回复到：

AlphaZero「确实」可以执行规划。但是通过MCTS完成的，使用卷积网络提出好的行为，另一个卷积网络来评估位置。

然而探索这棵树所花费的时间可能是无限的。这就是推理和计划。而强化学习是用来训练这些网络的。

Christian Szegedy继续回复到：

我同意。所以我认为的方法是：

- 迫使系统探索与我们相关的推理空间的大部分内容。

- 使其以可验证的方式进行探索。

- 了解人类对有趣事物的品味。

在我看来，所有这些都很快变得可行。

而从xAI联创嘴里说出来的观点，加上最后这句：「在我看来，所有这些都很快变得可行」，不由得让人浮想连篇。

毕竟如此肯定地说「可行」，最直接的原因也许就是「我们已经做出来了。」

也许在不久的将来，我们将能看到xAI抓住LLM推理能力弱的「痛点」，穷追猛打，打造出一个「强推理」的大模型，弥补了像ChatGPT等市面上一干大模型产品的最大缺陷。

LeCun：说多少次了，LLM就是不行！

而LeCun最近批驳LLM推理能力的依据，是ASU大学的教授Subbarao Kambhampati最近的几篇论文。

个人介绍：https://rakaposhi.eas.asu.edu/

在他看来，在很多能力上号称达到和超越人类水平的LLM，在推理和规划能力上有重大缺陷。

论文地址：https://arxiv.org/abs/2310.12397

论文地址：https://arxiv.org/abs/2310.08118

论文地址：https://arxiv.org/abs/2305.15771

在人类专家级的规划推理难题面前，GPT-4的正确率只有12%。

而且，在推理任务中，如果让LLM对自己的答案进行自我修正，输出质量会不增反降。

也就是说，LLM根本没有能力推理出正确答案，一切只能靠猜。

而教授在论文发表之后，还针对网友和学者对于论文的讨论，发了一条长推，进一步阐述了自己的观点。

教授认为LLM是出色的「创意发生器」，但是无论是在语言还是代码方面，但它们不能自主规划或推理。

教授指出，对于LLM的自我纠正能力，学界存在很多误解。

一些论文的作者过度人格化LLM，误以为它们能像人类一样产生错误并自我修正。

他批评了使用随意整理的Q&A数据集来制定和评估自评声明的做法，认为这种做法在社区中造成了混淆。

教授还指出外部验证和人类参与的重要性。尽管GPT-4不能验证颜色配置，但可以帮助生成Python代码，需要人类修正后可以作为外部验证器。

同时，与人类和专业推理器合作的模型，也将有助于模型推理能力的提升。

教授列出了一些论文，展示了如何从LLM中提取规划域模型，通过人类和专用推理器的帮助进行优化，并用于计划验证器或独立域计划器。

进一步优化LLM的验证能力也很重要。通过特定的微调来增强LLM的验证能力，尽管这不会让LLM突然在推理或验证方面表现得更好，但可以使自我纠正能力得以小幅改进。

说LLM是「随机鹦鹉」，难道人类就不是了吗？

而一位网友同样也在LeCun的推特下指出，其实规划和推理对于很多人类来说也不是强项，言下之意，不应该因此否认大语言模型的智能水平。

曾创立了两个工作社交平台Glint和Whip的连续创业者Goutham Kurra最近也发表了一篇长博客：「我们都是随机鹦鹉」，认为LLM背后的能力和人类智能没有本质的区别。

文章链接：https://hyperstellar.substack.com/p/let-me-finish-your-sentences#%C2%A7were-all-stochastic-parrots

如果人类坐下来冥想，并不会意识到自己产生想法的机制到底是如何运作，而且，人类对塑造自己的思想的本质也并不存在有意识的控制。

假设一个人在大热天外出散步，并且出汗了。这会导致他想到气候变化，会带来一些思想中的困扰。

他决定将他的想法转移到更愉快的主题上，这个过程感觉像是有意识的控制，但该选择哪个主题去思考呢？

人类的大脑也许会尽职尽责地弹出几个选项供他参考：也许会考虑晚上晚些时候要玩的游戏，或本周末要参加的音乐会。

但这些新的选择从何而来？你的大脑是如何决定弹出这些而不是其他东西的？人类是否有意识地了解所有可能选择的枚举过程？

当他继续散步并思考这些事情时，他用眼角的余光注意到一只松鼠跑上树，就会对它浓密的尾巴感到惊讶。

这时候，人类的「智能思维」又消失了，开始像一只随机鹦鹉一样自动思考？

当我们认识到我们对自己的想法实际上是如何形成的知之甚少时，问题是：想法的无意识起源有多随机？

难道不也是某种程度的「随机鹦鹉」？我们的叙事生成机制有多像LLM？

以意大利作家Elena Ferrante为例，据《经济学人》报道，她「可能是你从未听说过的最好的当代小说家」。

她的《我的天才女友》系列已在40个国家售出超过1100万册，评论家们纷纷表示：「女性友谊从未被如此生动地呈现出来过。」

她的回忆录「In the Margins」中描述了自己二战后在意大利的成长经历。

与同时代的其他女作家一样，她出生在男性文学传统中，阅读的大部分是男性作家的作品，因此开始模仿男性作家进行写作。

她在自传中写到：

即使在我十三岁左右的年纪……感觉自己的写作水平还不错，我也一直感觉有个男性的声音在告诉我应该写什么，以及如何写。

我甚至不知道那个声音是和我同龄还比我年纪大，也许已经是个老人了。......我想象自己成为男性，但同时仍然是女性。

在自传中，人类中一位伟大的当代作家，以现代意大利文学的独特而充满活力的声音，坦率地描述了她摆脱「随机鹦鹉」状态的努力和挣扎。

因为她的独有的语言和思想被数百年来形成的男性为主的文学经典所不知不觉地塑造着。

如果我们真正审视自己，我们头脑中出现的大部分想法都是别人的声音：我们的父母和老师的声音。

我们读的书，我们看的电视，我们的思想建立在非常深厚和粘性的文化基础之上。

我们的语言、思想和表达能力是我们所阅读的内容的函数，过去的文字会影响未来。

我们过着与祖先基本相同的生活，重复着昨天的绝大多数相同想法，写下与其他人相同的文字，差别非常小。

随便看看好莱坞的电影，读几本书，就会发现很多故事几乎是相同的，只是背景不同而已。

时不时地，人类似乎能够摆脱鹦鹉学舌的束缚，说出一点原创的想法，思考一点原创的想法。

通过这一点点原创的内容，我们的文化就取得了巨大的飞跃。

参考资料：

https://twitter.com/ylecun/status/1716432413364977757

https://hyperstellar.substack.com/p/let-me-finish-your-sentences?utm_source=profile&utm_medium=reader2https://twitter.com/ylecun/status/1716432413364977757

近期资讯

2025年湖北省各地市高新技术企业认定奖励补贴政策、申报条件材料

关于2025年湖北省各地市区县高新技术企业认定申报奖励补贴政策、湖北高企认定申报条件、材料、流程等内容整理，如果湖北省各地市企业有高新技术企业申报代理需求，欢迎随时咨询。 [图片] 一、湖北省高新技术企业奖励补贴 1、黄石市高新技术企业奖励补贴对当年通过认定的高新技术企业给予10万元奖励,对获批为省级百强高新技术企业，给予15万元一次性奖励；对首次纳入“全国科技型中小企业信息库”的科技型中小企业给予1万元一次性奖励。鼓励各县（市、区）结合实际对当年通过认定的高新技术企业和入库的科技型中小企业给予奖励

咨询代理18715O65127 2024-12-26

天市垣、西方白虎《星经》（下篇）古籍里的三垣七宿示意图~四象

《甘石星经》下卷的上部分+末页~ 以天市垣为多，后部分的星宿并杂（当时尚无后时分类）、内容不多（残本）。 l 南方朱雀七宿（无） +东方青龙见cx12前篇 l 西方白虎七宿—— 奎宿：往良 5，策 1 奎娄胃昴毕觜参 l 天市—— 天市垣 56 侯星 1、宦官 4，斗 5 宗人 4、宗正 2，屠肆 2 市楼 6、斛 4，女窗 3、地座 1 宗 2，列肆 2、东肆 2，帛度 2 天纪 9，天棒 5，天淮 3 l 东方青龙—— 欣宿 3 尾宿、后工 9，天江 4，天龟 6、天鱼

元助理 2024-12-26

飞机货运系统市场发展趋势与竞争格局分析，未来年复合增长率（CAGR）为4.09%

Argo丶 2024-12-26

聚乳酸开启可降解材料的绿色篇章

在追求可持续发展的今天，寻找能够替代传统石油基塑料的材料已成为全球科研与产业界的共同目标。聚乳酸（Polylactic Acid，简称PLA），作为一种由乳酸聚合而成的可生物降解高分子材料，正逐步崭露头角，以其独特的环保特性和广泛的应用前景赢得了广泛关注。聚乳酸的基本性质与特点：聚乳酸（Polylactic Acid，简称PLA）的化学结构重复单元为‒O‒CH(CH3)CO‒，其原料乳酸是一种天然有机酸，来源于可再生物质资源如玉米、木薯等，通过微生物发酵和提取工艺制得。这种生产方式不仅减少了对石油资源

深德鸿环保新材料 2024-12-26

多项创新技术，引领潮流 vivo S20火热开售中

vivo正式发布了其全新的中端旗舰手机——vivo S20系列，其中的vivo S20凭借其出色的设计、强大的影像实力以及卓越的续航表现，吸引了众多消费者的目光。这款被寄予厚望的“年度最美手机”再次展现了vivo在智能手机领域的创新实力。在机型与材质设计上，vivo S20追求极致的轻薄与舒适握感。其直屏设计搭配7.19mm的超薄厚度和187g的轻盈重量，为用户提供了轻盈便携的使用体验。背面采用3D玻璃材质，经过精心打磨和抛光处理，手感温润细腻，仿佛一块精心雕琢的艺术品。此外，vivo S20还采用了金刚

环艺科技 2024-12-26

黑米评测 2024-12-26

航拍中国第三季笔记（湖南）

湖南中国中南部三面环山中部丘陵河网密布众多江水最终通过北部的洞庭湖与长江相连洞庭湖：岳阳市长江和洞庭湖交汇中国第二大淡水湖和中国第一长河共同呼吸丰水期洞庭湖吸纳长江过剩的水量成为一片面积超过2600平方公里的水域枯水期向长江送出他的收藏洞庭湖调节长江湖南湖北的湖说的就是洞庭湖冬季洞庭湖水位下降水面面积只有夏季的1/3 此时的洞庭湖更像浅滩沼泽湖泥长出苔芽吸引北半球数十万只候鸟蜂拥而来大片沼泽暗藏小陷阱看似坚硬的地表下是最危险的泥潭一脚下去就有可能无法动弹洞庭湖

一根鱼刺刺 2024-12-26

君联资本李家庆：投资迎来范式变化，要从“猎人”向“农民”转变

既要做到投早、投新、投硬科技，还要投大、投难、投长。他于1998年加入联想，在联想集团从事业务拓展工作。2001年，他作为第一批员工加入联想投资（君联资本的前身），历任投资经理、高级投资经理、执行董事。他拥有清华大学机械工程、经济管理双学士，清华大学管理工程硕士学位以及法国巴黎工程师学院MBA学位。他就是君联资本总裁/执委会成员李家庆。 [图片] 作为中国领先的、专注于早期创业投资以及成长期私募股权投资的专业投资机构，君联资本经历了多支基金的完整管理周期，创造了优秀且可持续的基金业绩。迄今为止，君联资

萌解创投 2024-12-26

LeCun和xAI联创对呛，GPT-4重大推理缺陷无解？网友：人类也是“随机鹦鹉”

LeCun和xAI联创对呛，GPT-4重大推理缺陷无解？网友：人类也是“随机鹦鹉”

推荐体验

相关资讯