OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

作者：卫星与网络发布时间：2024-03-22

OpenAI 斯坦福

刚刚过去的一天，OpenAI被爆出惊天内幕：一个名为Q*（Q-Star）的项目已现AGI雏形。

对于这个神秘Q*，许多网友决定挖墓，将研究重点放在了「Q学习」（Q-learning）身上。

突然间，这项来自1992年的技术成为了热点。

谷歌工程师、Keras发明者François Chollet表示，人类对即将到来的AGI的第一次恐慌，是在2013年左右，DeepMind的Atari Q-learning。

第二次是在2016年左右爆发的深度强化学习Deep RL（部分由AlphaGo触发）。2016年末，很多人都相信Deep RL将在5年内实现AGI......

那么，Q-learning真的是OpenAI实现AGI的杀手锏吗？

Q-learning是什么？

接下来，让我们深入了解Q-learning以及它与RLHF的关系。

Q-learning是人工智能领域，特别是在强化学习领域的基础概念。它是一种无模型的强化学习算法，旨在学习特定状态下某个动作的价值。

Q-learning的最终目标是找到最佳策略，即在每个状态下采取最佳动作，以最大化随时间累积的奖励。

理解Q-learning

基本概念：Q-learning基于Q函数的概念，也称为「状态-动作」价值函数。这个函数接受两个输入：一个状态和一个动作。它返回从该状态开始，采取该动作，然后遵循最佳策略所预期的总奖励。

Q-table：在简单场景中，Q学习维护一个表（称为Q-table），每行代表一个状态，每列代表一个动作。表中的条目是Q值，随着代理通过探索和利用学习而更新。

更新规则：Q-learning的核心是更新规则，通常表示为：

这里，\( \alpha \) 是学习率，\( \gamma \) 是折扣因子，\( r \) 是奖励，\( s \) 是当前状态，\( a \) 是当前动作，\( s' \) 是新状态。

探索与利用：Q-learning的一个关键方面是平衡探索（尝试新事物）和利用（使用已知信息）。这通常通过诸如ε-贪婪策略来管理，其中代理以ε的概率随机探索，以1-ε的概率利用最佳已知动作。

举个例子，小迷宫里的一只老鼠，目标是吃掉右下角的一大堆奶酪，避开毒药。如果我们吃了毒药，吃了一大堆奶酪，或者我们花了超过五步，game over。

奖励函数是这样的：

- 没有吃到奶酪：+0
- 吃到一块奶酪：+1
- 吃到一大堆奶酪：+10
- 吃到毒药：-10
- 超过5步：+0

为了训练智能体有一个最优的策略，就需要使用Q-Learning算法。

Q-learning与AGI的道路

AGI指的是人工智能系统理解、学习并将其智能应用于各种问题的能力，类似于人类智能。虽然Q-learning在特定领域很有力量，但它代表着通向AGI的一步，但要克服几个挑战：

- 可扩展性：

传统的Q-learning难以应对大型状态-动作空间，使其不适用于AGI需要处理的实际问题。

- 泛化：

AGI需要能够从学习的经验中泛化到新的、未见过的场景。Q-learning通常需要针对每个特定场景进行明确的训练。

- 适应性：

AGI必须能够动态适应变化的环境。Q-learning算法通常需要一个静态环境，其中规则不随时间变化。

- 多技能整合：

AGI意味着各种认知技能，如推理、解决问题和学习的整合。Q-learning主要侧重于学习方面，将其与其他认知功能整合是一个正在进行的研究领域。

进展和未来方向：

- 深度Q网络（DQN）：

将Q-learning与深度神经网络结合，DQN可以处理高维状态空间，使其更适合复杂任务。

- 迁移学习：

使Q-learning模型在一个领域受过训练后能够将其知识应用于不同但相关的领域的技术，可能是通向AGI所需泛化的一步。

- 元学习：

在Q-learning框架中实现元学习可以使人工智能学会如何学习，动态地调整其学习策略，这对于AGI至关重要。

Q-learning在人工智能领域，尤其是在强化学习中，代表了一种重要的方法论。

毫不奇怪，OpenAI正在使用Q-learning RLHF来尝试实现神秘的AGI。

A*算法+Q-learning

一位斯坦福博士Silas Alberti表示，OpenAI的Q*可能与Q-learning有关，表示贝尔曼方程的最优解。

又或者，Q*指的是A*算法和Q学习的结合。

一个自然的猜测是，它是基于AlphaGo的蒙特卡罗树搜索（Monte Carlo Tree）token轨迹。

这似乎是很自然的下一步，之前像AlphaCode这样的论文表明，即使在大型语言模型中进行非常幼稚的暴力采样，也可以在竞争性编程中获得巨大的改进。

下一个合乎逻辑的步骤是以更有原则的方式搜索token树。

这在编码和数学等环境中尤为合理，因为在这些环境中，有一种简单的方法可以确定正确性。事实上，Q*似乎就是为了解决数学问题。

不过，Silas Alberti称，根据问题的不同，计算量也不同。现在，我们只能对模型采样一次。如果Q*真的如上所述是树状搜索，那么它就可以在一道很难的奥数题上花费10倍、100倍甚至1000倍的计算量。

同样，也有网友表示，Q*是Q-learning和A*算法的结合。

「合成数据」是关键

Rebuy的AI总监、莱斯大学博士Cameron R. Wolfe认为：

Q-Learning「可能」不是解锁AGI的秘诀。但是，将合成数据生成（RLAIF、self-instruct等）和数据高效的强化学习算法相结合可能是推进当前人工智能研究范式的关键......

他对此做一个简短版的总结：

使用强化学习进行微调是训练ChatGPT/GPT-4等高性能LLM的秘诀。但是，RL本质上是数据低效的，而且使用人类手动注释数据集来进行强化学习的微调成本极高。考虑到这一点，推进人工智能研究（至少在当前的范式中）将在很大程度上依赖于两个基本目标：

用更少的数据使RL性能更好。
使用LLM和较小的手动标注数据集，为RL综合生成尽可能多的高质量数据。

我们在哪里碰壁？最近的研究表明，使用RLHF来微调LLM是非常有效的。然而，有一个主要问题——RL数据效率低下，需要我们收集大量数据才能获得良好的性能。

为了收集RLHF的数据，我们让人类手动标注他们的偏好。虽然这种技术效果很好，但它非常昂贵，而且进入门槛非常高。因此，RLHF仅供拥有大量资源的组织（OpenAI、Meta）使用，而日常从业者很少利用这些技术（大多数开源LLM使用SFT而不是RLHF）。

解决方案是什么？尽管可能没有完美的解决方案，但最近的研究已经开始利用强大的LLM（比如GPT-4）来自动化数据收集过程，以便使用RL进行微调。这首先是由Anthropic的Constitutional AI探索的，其中LLM合成了用于LLM对齐的有害数据。后来，谷歌提出了人工智能反馈的强化学习（RLAIF），其中LLM用于自动化RLHF的整个数据收集过程。令人惊讶的是，使用LLM生成合成数据以使用RL进行微调非常有效。

来自LLM的合成数据。我们在各种研究论文中看到，使用LLM生成合成数据是一个巨大的研究前沿。这方面的例子包括：

self-instruct：LLM可以使用LLM自动生成指令调优数据集（Alpaca、Orca和许多其他模型也遵循类似的方法）。
LLaMA-2：LLM能够在人工标注少量示例后为SFT生成自己的高质量数据。
Constitutional AI：LLM可以使用自我批判来生成高质量的数据集，以便通过RLHF和SFT进行对齐。
RLAIF：我们可以使用LLM完全自动化RLHF的反馈组件，而不是使用人工来收集反馈，并实现可比的性能。

对此，英伟达高级科学家Jim Fan表示：「很明显，合成数据将提供下一万亿个高质量的训练token。我敢打赌，大多严谨的LLM团队都知道这一点。关键问题是如何保持质量并避免过早停滞不前。

Richard Sutton写的《苦涩的教训》继续指导着人工智能的发展：只有两种范式可以通过计算无限扩展：学习和搜索。他在2019在撰写本文时，这个观点是正确的，而今天也是如此。我敢打赌，直到我们解决AGI的那一天。」

马斯克对此深表赞同：「一个硬盘就能装下人类有史以来所有书籍的文本，这实在有点可悲（叹气）。而合成数据却要比这多出十万倍。」

然而，在LeCun看来并非如此。

他表示，「动物和人类只需少量的训练数据，就能很快变得非常聪明。我认为新的架构可以像动物和人类一样高效地学习。使用更多的数据（合成数据或非合成数据）只是暂时的权宜之计，因为我们目前的方法存在局限性」。

GPT-Zero？

还有人猜测，Q*有可能是Ilya Sutskever创建的GPT-Zero项目的后续。（链接：OpenAI新模型曝重大飞跃：AGI雏形或威胁人类，也成Altman被解雇导火索！）

很多人声称Q-learning或RLAIF并不新鲜。这些技术可能并不新鲜，但将它们结合起来构建一个产生显著结果的工作实现是新颖的！

伟大的工程+科学=魔法！

确实，AlphaZero当年的视频值得再重温一遍。

已关注

关注

重播分享赞

关闭

观看更多

正在加载

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

参考资料：

https://twitter.com/BrianRoemmele/status/1727558171462365386

https://twitter.com/DrJimFan/status/1727505774514180188

>End

>>>

本文转载自“新智元”，原标题《OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想》。

为分享前沿资讯及有价值的观点，太空与网络微信公众号转载此文，并经过编辑。

支持保护知识产权，转载请注明原出处及作者。

部分图片难以找到原始出处，故文中未加以标注，如若侵犯了您的权益，请第一时间联系我们。

HISTORY/往期推荐

迪斯尼传播快乐，美丽星球点亮梦想

商业运载火箭为什么那么难？

混合所有制模式：新型举国体制在商业航天发展中的逻辑演进和实践路径（之一）

混合所有制模式：商业航天领域推进新型举国体制的重要途径

>>>

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《太空与网络》，观察，记录，传播，引领。

>>>

·《卫星与网络》编辑委员会

高级顾问：王国玉、刘程、童旭东、相振华、王志义、杨烈

· 《卫星与网络》创始人：刘雨菲

·《卫星与网络》副社长：袁鸿翼，王俊峰

· 微信公众号（ID：satnetdy）团队

编辑：艳玲、哈玫，周泳、邱丽

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、刀子、赵栋

策划部：杨艳李真子

视觉总监：董泞

专业摄影：冯小京、宋伟

设计部：顾锰、潘希峎、杨小明

行政部：姜河、林紫

业务部：王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜，请加微信：18600881613

商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，请加微信：13811260603

杂志订阅，请加微信：wangxiaoyu9960

· 卫星与网络各分部：

成都分部负责人：沈淮

长沙分部负责人：宾鸿浦

西安分部负责人：郭朝晖

青岛分部负责人：江伟

· 卫星与网络总部负责人：农燕

· 会议活动部负责人：乔颢益、许克新、董今福

· 投融资及战略层面合作：刘雨菲

· 本平台签约设计公司：一画开天（北京）文化创意设计有限公司

· 航天加（深圳）股权投资基金管理负责人：杨艳

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

推荐体验

相关资讯

OpenAI神秘Q*项目解密，诞生30+年「Q学习」算法引全球网友终极猜想

OpenAI神秘项目“Q*”的N个猜想

关于OpenAI神秘项目“Q*”的N个猜想

消息称OpenAI正开发“草莓”项目：前身为神秘Q*算法

OpenAI宫斗剧引出神秘项目Q*

近期资讯

华硕、微星英特尔 B860 主板评测提前现身，显示 1 月 13 日解禁

如何有效控制电视使用，让生活更丰富多彩而非单一沉迷

东莞三科斯取得防翘起的导热双面胶带专利，达到防止导热双面胶带端头翘起的效果

梅卡曼德取得基于机器人的物体表面非闭合凹槽填充方法、装置和介质专利

小米发力韩国市场：设立子公司、拓展渠道、推旗舰机

浙江瑞安华联药机科技取得便于换卷的泡罩包装机专利，能够实现快速换卷作业

青岛思科三维智能装备取得自动放卷送料装置专利，操作起来更加省力

如何有效清理C盘空间，提升电脑运行速度的实用技巧与方法

如何有效应对骚扰电话，保护个人隐私与合法权益

如何应对电脑故障：常见问题及解决方案指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响