当前位置:首页|资讯|OpenAI|人工智能

突发 | OpenAI 绝密项目「草莓」首次曝光,能做目前 AI 无法解决的事, 内部人士曾警告:可能威胁全人类

作者:AppSo发布时间:2024-07-13

就在刚刚,OpenAI 去年大热的神秘项目「Q*」再次有了新动态。

据外媒路透社报道,OpenAI 内部正在一个代号为「草莓(Strawberry)」的项目中开发一种新的人工智能模型。

该模型细节此前从未被报道过,而 OpenAI 正在努力证明该模型类型能够提供高级推理能力。

根据路透社五月份所看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发「草莓」。不过路透社无法确定这份文件的确切日期。

该文件详细介绍了 OpenAI 打算如何使用草莓进行研究的计划。 即使在 OpenAI 内部,「草莓」的工作原理也是严格保密的。

报道称,「草莓」模型的目的不仅是让公司的人工智能支持答案查询,还能提前规划,以便自主、可靠地浏览互联网,以执行 OpenAI 所称的「深度研究」。

根据对十多名人工智能研究人员的采访,这也是迄今为止人工智能无法解决的问题。

当路透社向 OpenAI 方求证「草莓」等细节时,OpenAI 公司发言人并没有直接回答有关「草莓」的问题,而是含糊其辞地回应道:

我们希望我们的人工智能模型能像我们一样看待和理解这个世界。

不断研究新的人工智能能力是业界的普遍做法,我们都相信这些系统的推理能力会随着时间的推移而不断提高。

值得注意的是,还记得去年报道的 Q* 吗?

去年有媒体曝出,OpenAI CEO Sam Altman 没有及时向董事会披露 Q* 的进展,这也被视为引发OpenAI「宫斗大戏」的重要导火索。

当时,OpenAI 的内部人士还担心,Q* 的重大突破或将威胁全人类。

而路透社报道称,Q* 正是「草莓」的前身,在去年的报道中, Q* 更是被视为一项重要突破。

两位消息人士透露,今年早些时候,OpenAI 向他们展示了 Q*,能够回答当今市面上模型无法触及的棘手科学和数学难题。

包括近日彭博社也报道,在本周二的一次内部全体会议上,OpenAI 展示了一个研究项目的演示,声称该项目具有类似人类的新推理能力。

OpenAI 发言人证实了这次会议,但拒绝透露内容细节,所以路透社也无法确定所展示的项目是否是「草莓」。

不过,也正是在这场会议上,OpenAI 提出了一套支持「自定义」AI 进化等级的分类系统。

该分级系统被划分为从能够与人类进行基本对话的人工智能(Level 1)开始,一直到能够独立完成组织任务的高级人工智能(Level 5)。

具体等级如下:

第一级(Level 1):聊天机器人,具有对话语言能力的 AI

第二级(Level 2):推理者,能解决人类级别问题的 AI

第三级(Level 3):代理,能采取行动的 AI 系统

第四级(Level 4):创新者,能辅助发明的 AI

第五级(Level 5):组织者,可以完成组织工作的 AI

OpenAI 内部认为自己处于第一级,但即将迈入第二级「推理者」,即能够解决基本问题任务的系统,类似于拥有像博士学位但没有工具的人类。

路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。

虽然大型语言模型已经可以比人类更快地概括长文本和撰写优雅的散文,但这种技术难以应付常识性问题,因为这些问题的解决方案在人们看来是直观的,比如识别逻辑谬误和玩井字游戏。 当模型遇到这类问题时,经常会出现「幻觉」。

接受路透社采访的人工智能研究人员普遍认为,就人工智能而言,推理是指形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。

提高人工智能模型的推理能力被认为是解锁模型能力的关键,使其能够完成从重大科学发现到规划和构建新软件应用程序的所有工作。

OpenAI CEO Sam Altman 今年早些时候说过,在人工智能方面,「最重要的进步将围绕推理能力展开。」

Google、Meta 和微软等其他公司也在尝试使用不同的技术来改进人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。

然而,对于大型语言模型(LLM)是否能够将想法和长期规划纳入其预测方式,研究人员的看法却不尽相同。

例如,图灵奖得主、Meta 首席科学家 Yann LeCun 就认为,大型语言模型不具备像人类一样的推理能力。

知情人士表示,「草莓」项目是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的这份文件描述了「草莓」想要实现的目标,但没有说明如何实现。

近几个月来,OpenAI 一直在私下向开发者和其他外部各方发出信号,称其即将发布具有更先进推理能力的技术。

消息人士称,「草莓」在训练过程中使用了后训练(post-training)方法,即在对大量通用数据进行训练后,调整基础模型以特定方式优化其性能。

开发模型的后训练阶段涉及微调等方法,这是当今几乎所有语言模型都必经的一个过程,它有多种形式,比如让人类根据模型的响应向模型提供反馈,并为模型提供好答案和坏答案样例。

一位知情人士还透露,「草莓」与斯坦福大学 2022 年开发的一种名为 STaR(Self-Taught Reasoner)的方法有相似之处。

而 STaR 的作者之一、斯坦福大学教授 Noah Goodman 告诉路透社,STaR 方法使 AI 模型能够通过迭代创建自己的训练数据将自己「引导」到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。

Goodman 教授表示,

我认为这既令人兴奋又令人恐惧......如果事情继续朝着这个方向发展,我们作为人类就要认真思考一些问题了。

那份 OpenAI 的内部文件还透露,「草莓」瞄准的功能之一是执行长期任务 (LHT,long-horizon tasks),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务。

为此,OpenAI 正在名为「deep-research」的数据集创建、训练和评估模型。不过路透社无法确定该数据集中包含哪些内容,也无法确定长期任务意味着什么。

报道称,OpenAI 希望其模型能够通过一个名为「CUA」(计算机使用代理)的辅助工具自主地进行网络研究。此外,OpenAI 还计划测试其模型是否能胜任软件和机器学习工程师的工作。

附上报道原文:https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1