作者:Chubby @kimmonismus
翻译:有多少人工就有多少智能的人工智能
译者注:基于对更强大的人工智能的好奇,我决定翻译此文章。kimmonismus/status/1820079007297065296
*前言*:Q* 尚未发布或公开;目前还没有关于它的论文,OpenAI 也在保留有关它的信息(Sam Altman 说:"我们还没有准备好谈论这个",https://youtu.be/vdv8TF8n52Y,2分45秒处)。自从有了第一个暗示以来,社区一直在试图弄清楚 Q* 可能是什么。在这篇文章中,我汇编了所有能找到的信息,以描绘 Q* 的可能图景,包括所有合理的假设和推测。这些论点都有各种论文、文章和结论作为支撑。尽管如此,这里所写的一切都应该带着一定的"保留态度"来阅读。对我来说,使这篇文章尽可能易于理解和对初学者友好也很重要。诀窍是用简单的话来表达复杂的问题。此外,这篇文本是手写的,而不是由 ChatGPT 或其他 AI 模型生成的。因此,如果文本有时过于简单,我表示歉意。
大约半年前,The Information 和路透社从 OpenAI 的员工那里得知,这家研究机构取得了一项科学突破(尽管第一批传言出现在2023年12月)[1]。一个模型首次成功地在新算法的帮助下自主学习,并在没有外部影响的情况下获得了逻辑(数学)技能。这是 Transformer 架构由于其特性通常无法做到的,因为它们的结果是概率输出(我们还记得2017年的开端,"注意力就是一切所需"[2])。
许多思想家认为,逻辑思维和自主学习是人工通用智能(AGI)的先决条件(尽管目前还没有 AGI 的标准定义,谷歌提供了首批定义方法[3])。因此,AGI 需要在其输出中具有绝对的正确性,以便能够转移到所有(人类)过程中(OpenAI 自己在博客文章中反复强调这一点:"近年来,大型语言模型在执行复杂的多步推理能力方面有了很大提高。然而,即使是最先进的模型仍然会产生逻辑错误,通常被称为'幻觉'。减少幻觉是构建对齐的 AGI 的关键步骤"。Sam Altman 在一段视频中更具体地表述了这一点:https://x.com/rowancheung/status/1764324891484938529)。此外,AGI 还需要在所有知识领域具备专家级的通用知识(不要忘记 AGI 中的"G",即泛化)。在这方面,路透社和 The Information 报道的 OpenAI 的这一突破似乎是通往 AGI 道路上的关键,这可能让许多人感到恐惧。
一些内容创作者,如 "AI Explained"(https://youtube.com/watch?v=ARf0WyFau0A)和 "Matthew Bermann"(https://youtube.com/watch?v=Z6E41eXStsU&t=1895s)制作了关于这个主题的优秀视频,我也强烈推荐您观看。
路透社当时写道:
"11月22日(路透社)- 在 OpenAI 首席执行官 [Sam Altman 流亡四天](https://reuters.com/technology/ousting-ceo-sam-altman-chatgpt-loses-its-best-fundraiser-2023-11-18/) 之前,几名员工研究人员向董事会写了一封信,警告说发现了一种强大的人工智能技术,他们说这可能威胁到人类,两名熟悉此事的人士告诉路透社。(……)OpenAI 的一些人认为 Q*(发音为 Q-Star)可能是该初创公司在寻找所谓的人工通用智能(AGI)方面的突破,其中一人告诉路透社。OpenAI 将 AGI 定义为在大多数具有经济价值的任务中超越人类的自主系统。(……)该人士在要求匿名的情况下表示,在给予大量计算资源的情况下,新模型能够解决某些数学问题。尽管只能完成小学生水平的数学,但在这些测试中的出色表现让研究人员对 Q* 的未来成功非常乐观,该消息来源说。(……)研究人员认为数学是生成式 AI 发展的前沿。目前,生成式 AI 擅长通过统计预测下一个单词来进行写作和语言翻译,对同一问题的回答可能会有很大差异。但是,征服数学能力 - 只有一个正确答案的领域 - 意味着 AI 将具有更接近人类智能的更强大推理能力。AI 研究人员认为,这可以应用于新颖的科学研究。(……)"在 OpenAI 的历史上已经四次了,最近一次就在几周前,我有幸身处其中,当我们推开无知的面纱,推进发现的前沿,能够做到这一点是一生中最大的职业荣誉,"他在亚太经合组织峰会上说。"
The Information 当时写道 [4]:
"在 Altman 被解雇之前,OpenAI 取得了 AI 突破,引发兴奋和担忧。在上周被 OpenAI 董事会解雇的前一天,Sam Altman 暗示公司最近取得了技术进展,使他们能够"推开无知的面纱,推进发现的前沿"。(……)但据一位熟悉此事的人士称,一些 OpenAI 员工认为 Altman 的评论指的是公司研究人员今年早些时候的一项创新,这将使他们能够开发出更强大的人工智能模型。(……)两位顶级研究员 Jakub Pachocki 和 Szymon Sidor 利用 Sutskever 的工作构建了一个名为 Q*(发音为"Q-Star")的模型,该模型能够解决它以前没有见过的数学问题,这是一个重要的技术里程碑。该模型的演示在最近几周在 OpenAI 内部流传,开发的速度使一些专注于 AI 安全的研究人员感到警惕。Sutskever 团队的工作(之前未曾报道过)以及组织内部的担忧表明,即使在 Altman 周二晚上被恢复 CEO 职务后,OpenAI 内部关于工作进度的紧张关系仍将继续,并突显了高管之间潜在的分歧。(……)据知情人士透露,Sutskever 的突破使 OpenAI 能够克服获取足够高质量数据来训练新模型的限制,这是开发下一代模型的主要障碍。这项研究涉及使用计算机生成的数据,而不是从互联网上获取的真实世界数据(如文本或图像)来训练新模型。"
(小注:对 Q* 的极大恐惧和担忧还源于想象,如果 Q* 已经能够在没有先前训练的情况下自学数学(起初只是小学水平,但有足够的计算能力肯定会更多),那么在可预见的未来,由于所有数据加密的指数级发展,它可能会面临风险。如果你只给模型足够的时间和计算能力,什么能阻止一个自学数学的 AI 找到加密的解决方案呢?)
基本上,可以说 Q* 是一种将语言模型近似于人类思维及其结论的方法(算法)。它是一种映射逐步思考、迭代思考和过程分解思考的方法,并将其应用于大型语言模型。
它基于诺贝尔奖获得者丹尼尔·卡尼曼的系统思维。根据卡尼曼的理论,人类有两种思维过程,两个系统的思维,即系统1思维和系统2思维。系统1思维是直觉思维,是自动和直觉发生的思维。目前,大型语言模型只能以系统1的方式思考,通过基于训练数据输出概率结果。这对应于直觉思维。
然而,系统2思维是复杂思维。这是一种涉及思维步骤和过程分解的思维。如果我们想解决困难的数学问题,我们不能直觉地得出结果,而必须一步一步地接近解决方案。这就是我们需要教给语言模型的,即如何缓慢地、过程性地和迭代地接近结果。
那么,如何教会语言模型以系统2的方式思考呢?首先,我会简短地引用我自己几周前对 Q* 的简要总结,以提供一个初步的方法。[5]
"特别是自从路透社今天发表了一篇文章,其中他们与不愿透露姓名的 OpenAI 员工交谈后,Q* 似乎也成为了现实。Q* 的重要性不容低估,Q* 是一个突破性的进展,因为它消除了 LLMs 最大的问题。不需要通过 RLHF 来艰难地训练 LLMs,使用 Q* 的模型能够自主学习。一篇文章显示,一个带有 Q* 的 GPT 在没有任何外部干预的情况下自学了数学(小学水平):"路透社和 The Information 都报道称,研究人员找到了一种制作强大 AI 系统的新方法,并创建了一个名为 Q*(发音为 Q star)的新模型,该模型能够执行小学水平的数学。" [3] 这可能导致了两个过程:Q-学习和 A*-搜索。Q-学习教导模型自主学习,这就是诺贝尔奖获得者丹尼尔·卡尼曼所说的"系统2思维"。换句话说:思考:"系统1和系统2思维描述了丹尼尔·卡尼曼在他的著作《思考,快与慢》中介绍的两种不同的认知处理模式。系统1是快速、自动和直觉的,几乎不需要任何努力就能运作。这种思维模式使我们能够根据模式和经验快速做出决定和判断。相比之下,系统2是缓慢、深思熟虑和有意识的,需要有意识的努力。这种思维用于需要更多思考和考虑的复杂问题解决和分析任务。"[4] 通过将思维分解为子过程,模型获得了一种安全感。使用 A* 的解决方案寻找是一种搜索算法(类似于蒙特卡洛树搜索算法),用于找到最佳解决方案:"A*(发音为"A-star")是一种图遍历和寻路算法,由于其完整性、最优性和最佳效率,在计算机科学的许多领域中被广泛使用。给定一个加权图、一个源节点和一个目标节点,该算法找到从源到目标的最短路径(相对于给定的权重)。" [4] Q-学习和 A*-搜索的结合教会了模型独立思考和寻找解决方案,并进行自我纠正。这意味着幻觉将会停止,正确的解决方案将作为结果输出,因为解决方案不是简单地从训练数据中获取,而是基于概率。这意味着 LLMs 最大的问题,即它们的不准确性,可以被避免,并开始发展出准确性,使它们可以用于完全不同的学术科学。然而,Q* 可能会非常计算密集。这就是 gpt-mini 发挥作用的地方:我的假设是 OpenAI 将使用 gpt-mini 来减少能源需求并节省计算资源,也许还会将 Q* 变体融入到一个小型模型中。这只是猜测,但重要的是 gpt-mini 为 Q* 成为现实创造了条件。"
系统2思维在 OpenAI 的一篇研究论文中有更详细的解释("让我们逐步验证",[6],由 Ilya Sutskever 和 Jan Leike(前 OpenAI)等人发表。类似的想法今天已经在提示中使用,告诉模型"逐步思考"或"将任务分解为子部分",这当然只是应用系统2思维的表面尝试,尽管模型在架构上并不是为此设计的("像'深呼吸'和'逐步思考'这样的促进技术现在正在扩展到使用并行计算和启发式方法进行推理的高级方法中(搜索的一些基本原理)。" https://interconnects.ai/p/q-star)。
该文档及其结论的一部分是所谓的"过程奖励模型(PRM)"(见下文)。原则上,它是对各个过程步骤的评估。不是评估整体结果,而是为每个论证步骤给予分数。
"这允许在推理问题上进行更精细的生成,通过对最大平均奖励或其他指标进行采样,而不是仅仅依赖一个分数(标准 RMs 在这种文献中被称为结果 RMs)。使用 [Best-of-N 采样](https://huggingface.co/docs/trl/main/en/best_of_n),本质上是生成多次并使用奖励模型评分最高的那个(Llama 2 推广的拒绝采样的推理时间表亲),PRMs 在推理任务上的表现优于标准 RMs。"(同上)
这种方法也得到了所谓"思维树"的支持:
论文"思维树:使用大型语言模型进行深思熟虑的问题解决"提出了一个名为思维树(ToT)的新框架,该框架基于大型语言模型,通过结构化和计划的决策过程改进了它们的问题解决能力。与传统的依赖于顺序决策的思维链(CoT)方法相比,ToT 能够同时探索多个思路并评估这些路径,以实现更有效的问题解决。[7]
思维树(ToT)框架由四个主要组成部分构成:
1. 思维过程分解:将问题分解为更小、更易管理的步骤(思维)。
2. 思维生成:为下一个思维步骤生成建议。
3. 状态评估:对不同思维路径的进展进行启发式评估。
4. 搜索算法:使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法系统地探索思维树。
在"24点游戏"、创意写作和迷你填字游戏等任务的实验中,ToT 显示出比传统方法显著的改进。例如,在"24点游戏"中,ToT 达到了74%的成功率,而思维链(CoT)方法仅达到4%。
因此,我们在这里也看到,有计划、有结构和顺序的决策对解决方案的准确性至关重要。
"使这一切成为可能的创新是将推理步骤分块,并提示模型创建新的推理步骤。ToT 似乎是第一个用于提高推理性能的'递归'提示技术,这听起来与 AI 安全关注的递归自我改进模型非常相似(尽管我不是专家)。"(https://interconnects.ai/p/q-star)
"大型语言模型能够通过以逐步思维链的格式生成解决方案来解决需要复杂多步推理的任务(Nye et al., 2021; Wei et al., 2022; Kojima et al., 2022)。然而,即使是最先进的模型也容易产生虚假信息 — 它们在不确定的时候表现出编造事实的倾向(Bubeck et al., 2023)。这些幻觉(Maynez et al., 2020)在需要多步推理的领域特别有问题,因为一个单一的逻辑错误就足以破坏一个更大的解决方案。检测和减少幻觉对于提高推理能力至关重要。"
文章指出,过程监控模型在解决复杂数学问题方面表现更好。这种过程监控评估每个中间步骤,类似于在 A* 算法中评估每个节点扩展。过程监控的"思维链"类似于卡尼曼的系统2思维,因为它代表了评估逻辑步骤的推理思维,类似于过程监控方法。
因此,我们可以看到,系统2思维,即以过程步骤进行思考,不仅会导致更精确的结果,而且也是解决复杂任务的重要组成部分。有多种方法可以做到这一点。PRM 可以是 Q* 中寻找解决方案的一部分,因为它源自 OpenAI 自己的研究,ToT 也可能如此。遗憾的是,目前还无法进行更精确的分类,也无法从各种来源中得出结论。
OpenAI的Q*算法被认为是人工智能研究领域的一项突破,尤其是在开发具有人类推理能力的人工智能系统方面。Q*结合了Q-学习和A*(A-star搜索)的元素,从而提高了目标导向思维和解决方案寻找的能力。这种算法在解决复杂数学问题方面(无需事先的训练数据)表现出令人印象深刻的能力,标志着向通用人工智能(AGI)的演进。它是Q-学习和A*搜索的融合(正如其他人也建议的那样:https://interconnects.ai/p/q-star)。它基于自学习和预测性规划的理念。
"自我对弈是指一个代理通过与略微不同版本的自己对抗来提高其游戏水平的想法,因为它将逐渐遇到更具挑战性的情况。在大型语言模型的领域,几乎可以肯定,自我对弈的大部分将表现为人工智能反馈,而不是竞争性过程。"
前瞻性规划是指利用世界模型来推理未来并产生更好的行动或输出的想法。这两种变体基于模型预测控制(MPC)和蒙特卡罗树搜索(MCTS)。MPC通常用于连续状态,而MCTS则适用于离散动作和状态。
什么是Q-学习?不同的理论
理论1:
"Q-学习是强化学习的一种类型,是一种人工智能通过试错学习做出决策的方法。在Q-学习中,代理通过估计动作-状态组合的'质量'来学习做出决策。这种方法与OpenAI当前的方法——被称为通过人类反馈的强化学习(RLHF)——的区别在于,它不依赖人类交互,而是完全自主进行。想象一个机器人在迷宫中导航。通过Q-学习,它通过尝试不同的路线来学习找到最快到达出口的路径,当它靠近出口时会根据自身设计获得正面奖励,当遇到死胡同时会得到负面奖励。随着时间的推移,通过反复试错,机器人会开发出一种策略(一个'Q表'),告诉它在迷宫中每个位置应该采取的最佳行动。这个过程是自主的,依赖于机器人与环境的互动。(...)在Q-学习中,Q*代表了一个理想状态,在这个状态下,代理准确知道在每个状态下应该采取什么行动以最大化其长期预期奖励。用数学术语来说,它满足贝尔曼方程。"
理论2 来自MRPPS的算法:
"解释这个过程的一种方式是考虑虚构的侦探夏洛克·福尔摩斯试图解决一个复杂案件。他收集线索(语义信息)并逻辑地将它们联系起来(句法信息)以得出结论。Q*算法在人工智能中以类似的方式工作,结合语义和句法信息来导航复杂的问题解决过程。
这意味着OpenAI离拥有一个能够理解其现实的模型更近了一步,超越了仅仅是文本提示,更接近于虚构的J.A.R.V.I.S(对于Z世代)或蝙蝠电脑(对于婴儿潮一代)。
所以,虽然Q-学习是关于教导人工智能从与环境的互动中学习,但Q*算法更多地是关于提高人工智能的推理能力。理解这些区别对于理解OpenAI的'Q*'的潜在影响至关重要。两者都在推进人工智能方面具有巨大潜力,但它们的应用和影响却有显著差异。"
当然,我们不知道Q*中可能涉及哪些内容。然而,我明显倾向于理论1,因为它与OpenAI已经发表的论文更加一致。
A*搜索是什么?
A*搜索是一种在起始状态和目标状态之间找到正确路径的方法。它使用启发式函数来计算估计成本并找到最佳路径。如果启发式是可接受的(即不会高估成本),它还保证找到的解决方案是最优的。简而言之,如果启发式是可接受的,该算法会找到最短或最便宜的解决方案,对不同的问题或问题具有多功能性(灵活性),适应性强且稳健。A*在某些方面与蒙特卡罗树搜索(MCTS)相似,但它从根本上不同且更好,因为它使用启发式方法进行最优路径寻找,而不是使用随机模拟进行决策(MCTS)。换句话说,A*系统地搜索最佳路径,而MCTS使用随机模拟进行决策。
Q*使用A*的原理,通过结合路径成本和启发式值来找到最佳路径。通过整合DQN,Q*可以在一次传递中计算子节点的成本和启发式值,这显著降低了算法的复杂度。Q*中的逐步计算和验证类似于STaR中使用的过程监控,以最小化幻觉。
一位元科学家在Twitter上总结如下:
"根据我过去在OpenGo(AlphaZero的复现)的经验,A*可以被视为MCTS的确定性版本,只有价值(即启发式)函数Q。这应该适用于那些给定动作时状态易于评估,但给定状态时动作难以预测的任务。数学问题似乎非常符合这种情况。"
STaR:逐步推理
STaR方法也可以在Q*中使用。STaR(逐步推理)方法通过在每个标记预测中生成理性思维来改进语言模型。这类似于过程监控,因为两种方法都鼓励逐步审查和改进决策过程。这些方法可以帮助提高LLM(大型语言模型)的问题解决能力,并通过确保每一步都是逻辑和连贯的来减少幻觉。过程监控和STaR等方法使LLM能够通过监控每一步的推理并提供反馈来克服幻觉。这确保模型不仅理解和改进最终结果,而且也改进决策过程。这减少了不正确或无意义的答案,提高了模型的可靠性和准确性。
"Quiet-STaR: 语言模型可以教会自己在说话前思考"这篇文章研究了语言模型如何通过学习和应用理性思维模式来改进其预测。为此,提出了"Quiet-STaR"方法,使模型能够为每个标记预测生成理性思维,从而提高模型在困难任务上的表现。Quiet-STaR使用理性思维逐步优化语言模型预测,因此与A*相关。Quiet-STaR在使用理性思维做出更好的推理预测方面显示出与系统2思维的相似性。
1. Q*算法:结合了Q-学习和A*搜索,以改进目标导向思维。
2. 过程监控:提供逐步反馈以提高模型性能。
3. STaR方法:在每个标记预测中生成理性思维。
4. 克服幻觉:过程监控和STaR使决策更加准确和可靠。
5. 应用:这些方法促进了更稳健和可靠的人工智能系统的发展。
结论
与此同时,越来越多的人怀疑下一代模型将涉及逻辑思维,尤其是创新。彭博社最近对此进行了报道:
"OpenAI的高管们告诉员工,该公司认为目前处于第一层级,但即将达到第二层级,他们称之为"推理者"。这指的是能够像拥有博士学位但没有任何工具的人一样完成基本问题解决任务的系统。在同一次会议上,公司领导层展示了一个涉及其GPT-4 AI模型的研究项目,OpenAI认为这显示了一些新的技能,能达到类似人类的推理水平,这是根据一位熟悉讨论情况但要求匿名的人士透露的。当被问及这次演示时,发言人表示OpenAI一直在内部测试新功能,这是行业内的常见做法。
然而,发展的方向已经相当清晰。OpenAI相当直接地表示,对他们来说,第三层级将是代理:"根据OpenAI提出的层级,通往AGI的第三层级将被称为'代理',指的是可以花费几天时间代表用户采取行动的AI系统。第四层级描述的是能够提出新创新的AI。而最高级别将被称为'组织'。"
我们还不完全知道Q*即Strawberry的确切工作原理。到目前为止,这些都只是假设和它可能如何工作的方法。但是:我认为它们相当合理。这不是一个秘密,而是一个事实,即模型需要开始在其架构中实现系统2思维。为了创造最高的准确性并尽可能克服幻觉(仅靠RAG是不够的),这种迭代的逐步过程是必要的。我们不知道系统2思维将如何实现,但我已经尝试展示了今天已经有有效的方法来做到这一点。
第二个重要的过程是自学习。独立于外部数据和RLHF,需要通过评估进行自学习的方式。PRM可能在这里有所帮助,通过评估语言模型的各个论点而不仅仅是结果,在上述思维树过程中。
除了我提到的这些论点外,还有许多其他方法可以通过路径寻找、规划和自学习来实现大型语言模型更准确的结果输出。最近,有人在X上使用科学方法提出了进一步的建议,以达到类似的结果。
所以,正如我一开始所说,我们目前只能推测Q*的科学基础。
但从名称和技术的合理性来看,我仍然认为它是Q-learning、A*搜索的一种形式、ToT和PRM。但我可能是错的。不过我坚信,规划和系统2思维是Q*的关键指导原则,也是它成功的原因。
Q*可能会在结果输出的准确性方面产生优越性。通过自学习、寻路和过程细分,它将至少达到与Google Deepmind的AlphaProof2和Alpha Geometry(最近获得银奖)相似,如果不是更好的结果。Q*可能是最接近AGI的。
这需要多少计算和能源仍然不清楚(尽管看起来需要大量的两者)。
[1]https://reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
[2] https://arxiv.org/pdf/1706.03762
[3] https://arxiv.org/pdf/2311.02462)
[4] https://theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern
https://x.com/FannyPackM53510/status/1727520687479259169
[5] https://x.com/kimmonismus/status/1812200644654031033
[6] https://arxiv.org/pdf/2305.20050)
[7] https://arxiv.org/pdf/2305.10601
[8] https://arxiv.org/pdf/2102.04518
[9] https://arxiv.org/pdf/2203.14465
[10] https://arxiv.org/pdf/2403.09629
[11] https://archive.is/SLtFQ#selection-1849.0-1848.4
[12] https://arxiv.org/abs/2312.02682
https://arxiv.org/abs/2402.03570
https://arxiv.org/abs/2007.00708
https://arxiv.org/abs/2208.10291
https://arxiv.org/abs/2107.00101
https://arxiv.org/abs/2110.03173
一些所谓的泄露信息,但这些都未经证实:
摘要:OpenAI于2022年8月开始训练一个拥有125万亿参数的多模态模型。第一阶段被称为Arrakis,也叫Q*。该模型于2023年12月完成训练,但由于推理成本高昂而取消了发布。这是原本计划于2025年发布的GPT-5。Gobi(GPT-4.5)被重新命名为GPT-5,因为原本的GPT-5被取消了。
这些信息来源未知,目前无法验证其准确性。我们应该谨慎对待这类未经证实的"泄露"信息,直到有官方确认:https://drive.google.com/file/d/1xlRDbMUDE41XPzwStAGyAVEP8qA9Tna7/view