当前位置:首页|资讯|OpenAI|阿尔特曼

OpenAI 乱斗后续: 神秘项目「Q*」浮出水面,引发AI大佬热议

作者:头部科技发布时间:2023-11-30

原标题:OpenAI 乱斗后续: 神秘项目「Q*」浮出水面,引发AI大佬热议

OpenAI的人事动乱以Sam Altman重新执掌OpenAI完结,但Q*的出现又拉开了新的故事的帷幕。

What is Q*?

根据 The Information报道,OpenAI在解雇CEO Sam Altman之前,取得了一项由首席科学家 Ilya Sutskever 主导的人工智能的重大突破

这个突破让OpenAI能够开发出更强大的人工智能模型。

OpenAI的两位顶尖研究人员 Jakub Pachocki 和 Szymon Sidor 就利用这项技术构建了一个名为 Q*(发音为“Q-Star”)的模型,该模型能够解决以前从未见过的数学问题。

这是一个重要的技术里程碑,因为能够解决基本数学问题对现有的人工智能模型来说是一项艰巨的任务。

据Insider报道,人工智能训练初创公司 Tromero 的联合创始人Charles Higgins说,数学是关于符号推理的。比如说,如果X比Y大,Y比Z大,那么X比Z大。

如果大模型有能力对抽象概念进行逻辑推理和推理,那将是一个非常巨大的飞跃。

因此,Q*被认为是通往AGI或超级智能的关键一步。

目前,关于Q*的具体细节并没有公开,但据报道,OpenAI的一些研究人员在解雇Altman的前一天,给董事会发了一封信,警告他们Q*可能对人类造成威胁。

这封信被认为是导致Altman下台的多个因素之一,也是OpenAI内部发生混乱的导火索。

现在越来越多的人加入了对 Q * 的猜测和讨论之中。

关于神秘的Q*的猜测

第一种:Q*是Q-learning + A*。

据Insider报道,Tromero 公司的联合创始人之一Sophia Kalanovska接受采访时表示,Q* 的名字意味着它可能是两种著名人工智能技术(Q-learning 和 A* search)的结合。

Q-learning 是强化学习的一种,是一种人工智能通过试错来学习决策的方法。在 Q-learning 中,Agent通过估计行动状态组合的 "质量 "来学习决策。

这种方法与 OpenAI 当前的方法,即 "通过人类反馈强化学习"(Reinforcement Learning Through Human Feedback,简称 RLHF)的区别在于,它不依赖于人类互动,而是自己完成所有事情。

想象一下机器人在迷宫中导航的情景。

通过 Q-learning,它可以通过尝试不同的路线来找到通往出口的最快路径,当它接近出口时,就会获得由其自身设计设定的正奖励,而当它进入死胡同时,就会获得负奖励。

随着时间的推移,通过不断尝试和犯错,机器人会制定出一种策略("Q-table"),告诉它在迷宫中的每个位置应该采取的最佳行动。

这个过程是自主的,依赖于机器人与环境的互动。

如果机器人使用 RLHF,而不是自己发现问题,那么当机器人到达一个路口时,人类可能会进行干预,指出机器人的选择是否明智。

反馈的形式可以是直接命令("向左转")、建议("试试光线更充足的路径")或对机器人选择的评价("好机器人 "或 "坏机器人")。

在 Q-learning中,Q* 代表一种理想状态,在这种状态下,机器人确切地知道在每个状态下应采取的最佳行动,从而使其在一段时间内的总预期收益最大化。

用数学术语来说,它满足贝尔曼方程(Bellman Equation)。

今年 5 月,OpenAI 发表了一篇文章,称他们 "训练了一个模型,通过奖励每个正确的推理步骤,而不是简单地奖励正确的最终答案,实现了数学问题解决的新高度"。

A* search 是一种启发式的最佳优先搜索算法,它可以高效地在一个有向带权图中找到两个节点之间的最低成本路径。

Sophia Kalanovska表示,这两种技术的结合表明新模型可以将支持 ChatGPT 的深度学习技术与人类编程的规则相结合。

这种方法有助于解决聊天机器人的幻觉问题。

"我认为,人们之所以相信Q*会带来AGI,是因为从我们目前听到的消息来看,AGI似乎会将大脑的两面性结合起来,能够根据经验知道一些事情,同时还能对事实进行推理,"她补充说。

而解决看不见的问题是创造 AGI 的关键一步。

第二种:MRPPS 中的 Q* 算法

Q* 算法是马里兰反驳证明程序系统(MRPPS)的一部分。它是人工智能中定理证明的一种复杂方法,尤其适用于问题解答系统。

Q∗ 算法在搜索空间中生成节点,应用语义和句法信息来引导搜索。语义允许终止路径和探索富有成效的路径。

解释这一过程的一种方法是,一个侦探收集线索(语义信息)并将它们逻辑地联系起来(句法信息),从而得出结论。

Q* 算法在人工智能中的作用与此类似,它结合语义和句法信息来引导复杂的问题解决过程。

这意味着,OpenAI 距离拥有一个能够理解现实的模型又近了一步,它已经超越了单纯的文本提示。

因此,Q-learning 是要教会人工智能从与环境的互动中学习,而 Q 算法则更多地是要提高人工智能的演绎能力。

关于神秘的Q*的多种讨论

对于Q*引起的热议,图灵奖得主 Yann LeCun 一句话总结,现在关于 Q* 的推测只不过是废话。。

Yann LeCun 认为Q*很可能只是 OpenAI 用规划取代自回归 token 预测的一种尝试,是一个关于深度学习规划的项目,而规划(planning)是一种能够让深度学习模型更可靠的方法。

提高LLM可靠性的主要挑战之一是用规划(planning)取代自回归token预测,几乎所有顶尖的实验室(FAIR,DeepMind,OpenAI等)都在研究这个问题,并且已经发表了一些想法和结果。

看到Lecun的推文,NVIDIA高级人工智能科学家Jim Fan给出了相同意见,并表明对“Q* 实现 AGI”的恐惧是无稽之谈。

人工智能专家和深度学习评论家Gary Marcus在他的 Substack 上发表了一篇文章,对 Q* 所报告的能力表示怀疑。

“如果我每一个这样的推断(Q * 可能威胁人类)都能得到五分钱,我就会成为马斯克级别的首富。”

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1