当前位置:首页|资讯|OpenAI

目标导向主义失效了?前OpenAI科学家现身说法

作者:OSC开源社区发布时间:2023-12-04

原标题:目标导向主义失效了?前OpenAI科学家现身说法

“目标感很强” 常常被我们用来夸赞一个职场人,并被当作是成功的一大原因。然而,两位前 OpenAI 科学家 ——Kenneth Stanley、Joel Lehman 在多年的 AI 研究中发现,目标导向论对于成就伟大的事情并无助益,反而抱着探索的心态去尝试做有趣的事情更能带来意想不到的成果。

尤其是在人工智能的算法研究中,比如让机器人通过一条走廊,最终从走廊尽头的大门中出去。最终实验证明,在不设定 “出门” 目标的情况,机器人可以纯粹尝试一些与以往不同的事情,反而最终能找到出门的方法。类似原理的还有 Kenneth Stanley 曾参与的图片繁育网站的工作,在这个图片繁育网站上,用户可以从一个简单的圆点图形,叠加其他图形图片,最终生成出类似汽车、动物等 “有用” 的图片,但如果用户开局就抱着” 我要生成一张汽车图片 “的目标,反而很难成功。

由于认知理念上的转变,在 ChatGPT 发布前几个月,Kenneth 离开 OpenAI 去创业,研究新产品 —— 开放式、偶然性社交网络 Maven,Joel 离开后到了 Stability,领导 Carper 开放性研究团队,同时他也在研究机器之爱。Kenneth 和 Joel 也合作创作了一本书《为什么伟大无法被计划》,书中认为,许多时候,哪怕我们的探索漫无目的,在前方位置的道路上依然埋藏着无数宝藏。从 “目标” 中解放出来,或许能成为发现意外之喜的 “寻宝者”。

在我看来,研究工作最重要、最实用的方面之一是开发对于可能性的直觉。”正如 Joel 现在去研究机器之爱的历程,在接触心理学之后,他将对心理学和机器学习的兴趣结合起来,找到了更加热爱的事情,“ 我们的生活没有统一的目标,我们的兴趣和心理发展往往是偶然进行的 —— 于是,一个新的研究方向为我打开了。”在他看来,在机器时代,我们越来越需要人类代理的提醒,技术的目的是为人类的利益服务,而人类是构建和设计这项技术的人。

同样,对于人工智能的看法,Ken 也从人文的角度给出观点:“一种哲学见解认为,好的人工智能实验不仅应该带来强大的系统,还应该带来对我们人类自身的洞察。毕竟,对智能的任何伟大洞察实际上都是对人类的洞察,因为智能是我们的决定性特征。”

Kenneth 和 Joel 提出的哲学态度与常规认知相反,或许能给我们在这个混乱时刻一些新的启示,因此,OSCHINA 特别邀请 Kenneth 和 Joel 聊了聊他们理念、观点和故事。

OSCHINA:Ken 可以详细介绍下偶然性社交网络 Maver 的玩法、原理、以及目前的成长状态吗?

ken:

Maven 是一种新奇的社交网络,我创办了一家新公司来开发它。它基于我们《为什么伟大不能被计划》一书中的原则,专注于将人们与个性化的偶然发现联系起来,而不是增强病毒式传播。我们从 2023 年开始开发它,所以它还很新。

Kenneth Stanley

OSCHINA:Stability 现在在全球市场也备受关注,但很多人都不太了解开放性研究,能否请 Joel 介绍下正在做的开放性研究是指什么?

Joel:

创建生成式 AI 大模型的公司之间的一个主要理念分歧是专有模型与开源模型。

例如,现在 OpenAI 和 Anthropic 没有公开他们最大的模型,以便其他人可以修改或在其基础上构建 (尤其是对他们来说有商业价值的模型),而是只提供一个 API,用户可以在有限范围内使用模型。支持这种模式的理由通常是:如果大模型被滥用可能造成危险,而 API 可以实现更好的监控,并且训练大模型成本很高,公司需要一种赚钱的方法。

相比之下,由 Stability 和 HuggingFace 等公司采用开源的方式训练模型、发布代码和模型 (通常比闭源模型的模型小),这样其他公司和研究人员可以直接在其基础上进行构建,并根据自己的目的灵活调整。这些公司通常不太关心模型被滥用的危险,而是更关心创建一个蓬勃发展的研究和模型生态系统。但由于他们免费发布模型,其他人现在可以运行他们的模型,而无需向训练模型的公司付费,因此他们需要一种不同的商业模式来保持财务上的可行性。

这两种理念都有蓬勃发展的空间,尽管未来存在关键的不确定性。例如,如果开源模型在未来变得非常强大,并且不良行为者最终利用这些模型造成了社会问题,则可能会产生负面影响。反之,如果专有大模型的 API 对于大多数希望使用生成式 AI 的公司来说限制过多或是成本过高,也许也导致更多人选择开源路径。

当然,随着开源运动模式与方法的日益多样化,开源似乎更符合 Ken 和我的书中所传递的理念。我可以想象,许多有趣的发现将由此产生。但我担心,如何在开源社群中加入安全约束和规范引入,使得这些模型在造福社会的同时,也能尽量避免可能的负面影响?以及如何在鼓励这些规范和约束的同时不必放慢创新速度?这是一个有趣而微妙的问题。

Joel Lehman

>>> 从 “繁育” 到 “提示”,我们该如何对话机器

OSCHINA:当年 “繁育图片” 的孵化器网站后面的故事是怎样的?是否还在运行?

ken:

你指的是 Picbreeder。它是在我在中佛罗里达大学 (University of Central Florida) 的实验室开发的 (该实验室名为 EPlex-Evolutionary Complexity Research Group)。Jimmy Secretan (当时是一名博士生) 领导了这项工作。这是一个允许互联网用户培育图像的网站,就像你培育狗或马一样。更深层次地说,其实这是一次开放性实验。它使我们能够观察到在人工环境中发生的大规模开放式搜索过程 (让人联想到自然进化)。看到这一过程的展开,我们得到了许多深刻的教训,其中包括新奇性搜索算法背后的理念,以及《为什么伟大无法被计划》一书中的见解。

OSCHINA:“繁育” 原理和现在火爆的 “输入 prompt 生成图片” 这类网站可以做比较吗,二者背后的运行原理有什么相似得地方,有什么不同的地方?

ken:

它们都是生成艺术的一种形式,但工作方式截然不同。基于提示的现代图像生成技术之所以有效,是因为生成图像的模型已经过数百万或数十亿个示例图像的训练。所以当它生成图像时汲取了丰富的经验。在协议中,Picbreeder 没有任何训练数据,用户只是简单地开始随机繁育圆点,经过几代的繁育,就能产生进化,产生更多我们更熟悉的图像,比如如汽车和蝴蝶。一个一开始并不明显的巨大差异是,繁育远没有那么密集:像 Picbreeder 头骨这样的繁育图像只需要几十次迭代搜索,而现代图像模型已经经过数百万或数十亿次迭代进行优化。

Joel:

抽象地说,繁育原理是指人们以发散和协作的方式探索思想空间,是取得新发现和有用发现的关键。“输入提示生成图片” 的方法,在某种意义上与繁育原则是正交关系,因为你可以发散地与他人写作探索提示空间,也可以自己探索。

换句话说,许多人确实分享了他们的提示技巧,展示如何让模型生成图像获得有趣成果。例如,在一些模型中,添加 “Trending on Artstation” 这一文本将有助于提高质量。所以,人们越能看到他人制作的图片和提示,就越能从图片和他人的提示中得到启发,制作自己的图像,从而更全面地用拥抱繁育原则。

OSCHINA:Prompt 背后的原理,是更接近目标函数原理,还是无目标探索系统理论?如何解释?

Ken:

因为 prompt 可以传达任何想法,所以它可以用来表达客观或非客观的过程。大多数人可能会客观地使用它们,因为这是我们大多数人被教导的思考方式,但仍然有可能有人非客观地使用它们。例如,如果我让它为我解决一个问题,这是一个客观使用。但如果我让它想给出一些有趣的东西,那就更接近于非客观。然而,重要的是要注意,你可以向 LLM 表达一个非客观的概念并不意味着它能表现得很好,或像人类一样。我认为现在的 LLM 通常无法很好地独立实现非客观的表达。

Joel:

Prompt 原则既可以兼容目标函数原则,又可以兼容探索系统理论。有时,人们会 prompt 进行大量优化,试图在特定任务中获得最佳性能。还有一些时候,人们以一种更不定向的方式利用 prompt 进行探索,以找到不同寻常的有趣方法来产生新的输出 —— 探索特定语言模型或图像生成模型的边界。

以 “思维链” 提示的惊人发现为例,只需要给模型举几个例子,说明如何推理一个问题,最终就能帮助模型更好地完成任务 (即告诉模型 “一步步思考”)。模型本身有意想不到的优势,需要研究人员去发现,而发现方法往往是遵循他们的直觉,并以其他人发现和其他共享出来的 prompt 为基础。

OSCHINA:现在很多培训教学,教大家如何使用 Prompt,如果遵循用无目标探索系统理论,采用寻宝原则,我们该如何学习使用 prompt 和机器对话?

Ken:

我认为以这种方式探索 prompt 是一个好主意。当你和 LLM 交谈时,尝试去做一些没有目标的事情,看看当你尝试一些有趣的事情时会发生什么。当你发现它以一种有趣的方式响应时,请进一步探索这条路径。这种方法可能会带来对模型的更深入的理解,而不是简单地尝试实现特定的目标。就像对待一个人一样,与系统一起探索,以更好地了解它是很有价值的。

Joel:

一个原则是花一些时间玩这个系统,做你认为有趣的探索。也许你想看看模型有多善于讽刺,或者扮演你最喜欢的名人。你可以通过修改 prompt,或者尝试他人创建的 prompt 来开发直觉。你可以对意外发现持开放态度,注意到模型以一种本身有趣的方式作出响应 —— 也许你试图让语言模型进行讽刺,但它却以巧妙的双关语做出了反应。那么,也许你可以探索它擅长哪种双关语,以及它何时会犯奇怪的错误。很有可能,当你尝试将模型应用到实际事物中时,你在亲手操作模型的过程中形成的直觉最终会对你有用,或者你可能会发现一种新的提示方法,或者至少你可能会在学习提示的过程中获得乐趣。

>>> 哲学与技术,开发对于可能性的直觉

OSCHINA:在开发者群体中,roadmap、里程碑文化非常盛行,这是典型的目标导向。事实上,我们能看到很多知名软件都早已偏离最初的预设目标,但很多时候,时候软件标准、里程碑也能很好地指引开发团队做事。这个现象可以怎么理解?对于开发者该如何选择自己的 “开发哲学”,你们有什么建议?

Ken:

目标并不总是坏的。当通往目标的路径是已知的,设定目标就会有成效。在软件开发中,完成项目的步骤通常是已知的,所以遵循目标是有意义的。然而,如果项目的目标是创新、发现或创造力,那么目标就有问题了。这样的项目可能会被目标扼杀,最终只做了很少有创造性的事情。

Joel:

首先我要说明的是,我在大型软件工程方面没有太多的个人经验。但一般来说,里程碑和标准可能非常适合在已知如何做的范围内进行的工作。距离成功可能只是一步之遥,不需要广泛探索。将软件从版本 1 升级到版本 1.1,修复一些现有的 bug 或添加一些有限的功能,可能是非常适合目标的思维的地方。但是从更长远的角度来看,如果目标是完全重新构想一个软件,或者创建一个软件来实现其他软件从未实现过的功能,那么就需要更多的探索和垫脚石思维。

有时,垫脚石现象发生在更高的层面上。例如,当一个团队开发并发布一个开源库时,一个对他们的目的有用的库,一个构建在以前存在的库上的库,并且将使其他人能够创建他们自己的新库 —— 这就是在玩寻宝游戏。因此,开发人员的哲学中,与寻宝有关的方式是,了解目前有哪些软件垫脚石,这些垫脚石可能使哪些以前没有的东西成为可能,并向世界推出新的软件,让别人能够以你无法预料的方式去使用的新软件。

OSCHINA:哲学思想可以如何作用于 IT 领域的研究,可以结合实际的事情来聊一聊吗?

Ken:

我不确定这里指的是一般哲学还是这本书的哲学。当然,这本书的哲学也可以应用于其中。因为它只是赞同有时走一些有趣的路,即使你不知道它们通向何方。这在信息技术领域是绝对可行的。关于一般哲学能否应用于 IT 的问题,我认为是可以的。我认为哲学是对世界可能存在的方式的研究(与研究世界存在方式的科学相对)。 对 “可能是什么” 的理解可以帮助你在做出选择之前看到眼前的各种可能性。

Joel:

这很有趣 —— 有些人把哲学和实用性对立起来。我能理解这种观点,因为我们接触到的哲学往往是抽象的、象牙塔式的。但在我看来,最重要的哲学是非常实用的。在进行包括 IT 在内的任何领域研究时,掌握一些关于如何进行发现的哲学是非常重要的。你可以通过自己的经验和观察发展出自己的个人哲学,但我们这本书的一个贡献就是强调了雄心勃勃的发现通常是如何发生的。

在我看来,研究工作最重要、最实用的方面之一是开发对于可能性的直觉。我的意思是,去理解什么样的事情是容易完成的,哪些事情是在可能性的边缘,哪些事情你不清楚你是否能够解决它们。当一个人刚进入一个领域时,当涉及到可能性时,他们的直觉通常会很差。但是,当你对可能性的直觉很好 (你大致知道一个问题有多难),并且你的探索哲学也很合理 (如果一个问题很容易,就可以直接攻克;如果一个问题非常困难,可能无法解决,或者至少需要大量耐心的发散性探索),那么你成功的机会就会大得多。

OSCHINA:无目标,新奇性搜索等哲学思想对你们的日常生活产生了哪些影响?

Ken:

这对我的日常生活很有帮助,因为我对仅仅因为有趣而去做某事的疑虑减少了。我知道它可能会成为一个有趣的垫脚石,即使我还不知道它最终将如何有用。我还把它来对待我的孩子。例如,我 9 岁的儿子有时会选择一些没有明显好处的事情,但我鼓励他去做,因为我看到他对这些项目很感兴趣,所以我相信这些项目可以引导他发现自我。

Joel:

写这本书,以及多年来对新奇性搜索的研究,这种理念不可避免地渗透到一个人的生活中。我比大多数人更乐于改变职业方向 (我目前正处于改变职业方向的过程中),我努力保持求知欲,乐于看到意想不到的新机会,并努力在生活的不同方面之间找到广泛的联系。

OSCHINA:多年前你们因为图片产品的启示,开始研究 “无目标” 相关的哲学,这些年有没有一些实践体验带来新的哲学感悟?

Ken:

一种哲学见解认为,好的人工智能实验不仅应该带来强大的系统,还应该带来对我们人类自身的洞察。毕竟,对智能的任何伟大洞察实际上都是对人类的洞察,因为智能是我们的决定性特征。

Joel:

这些年来,我有很多顿悟的时刻,事情以一种意想不到的方式突然发生。这些经历往往发生在阅读与我正在研究的课题有着抽象联系的有趣内容时,一种新的联系突然出现,或者当我的两个看似独立的兴趣突然联系在一起时,就达到更深层次的统一。

例如,我最近关于 “机器之爱” 的研究就是将我对心理学和机器学习的兴趣结合在一起。起初,这些兴趣似乎是完全分开的。但后来,随着我不断深入研究心理学, 我开始意识到,人类个体的生活在某种程度上是开放式的,就像生物进化一样 —— 我们的生活没有统一的目标,我们的兴趣和心理发展往往是偶然进行的 —— 于是,一个新的研究方向为我打开了。

>>> ChatGPT:或许是目标与非目标导向的产物

OSCHINA:当下火热的 ChatGPT,或者其他人机互动问答产品,其背后的搜索符合新奇性搜索原则吗?

Ken:

这取决于这里所说的 “搜索” 是什么意思。假设是研究人员,确实有一个搜索的组成部分反映了新奇性搜索的各个方面,即使它不是明确的新奇性搜索算法。尤其是,没有人知道 ChatGPT 会成为一个世界性的现象 —— 相反,他们决定研究它,是因为它既有趣又新奇。

Joel:

如果我们回顾一下 OpenAI 的研究历程,就会发现 ChatGPT 并不是该公司的长期目标。他们一开始就做了很多不同类型的研究,与 ChatGPT 似乎没有什么联系 (例如,机器人实验,以及教 AI 玩电子游戏的实验)。因此,创建一个功能非常强大的问答系统的道路是出乎意料的,没有计划,它取决于并建立在许多其他人铺设的垫脚石的上。

OSCHINA:OpenAI 或者 ChatGPT 可以称得上是一项伟大的实验 OpenAI 现在在做的事情是符合 “目标导向” 还是 “自由探索” 路径?如何解释?

Ken:

因为我已经不在 OpenAI 工作了,所以很难说他们现在正在遵循什么样的流程。但我想说的是,这很可能是一个混合体,既要努力优化以获得更好的性能(这是以目标为导向的),又要尝试其他有趣的想法(这是以新奇为导向的)。这种混合反映出,他们既需要改进现有的东西,也需要寻找下一个新事物。

Joel:

我不代表 OpenAI 发言,也不太了解他们目前的计划 (我一年前离开那里)。但我认为这两者兼而有之 —— 既有 “自由探索”,也有 “目标导向”。这家公司已经不像刚成立时那样进行纯粹的原始探索,但他们仍在继续做许多有趣的研究。

>>> 关于探索尝试、关于机器之爱

OSCHINA:你们提到一句话:“如果你想在有远见的人身上投资,就看看那些在附近的不确定性领域中徘徊和探索的人。” 这句话里 “附近的不确定性领域” 是容易被发现的吗?

Ken:

不,我觉得这不容易发现。这就是为什么发现这些变革性机会的人如此罕见。我们经常假设世界运行的方式,这让我们对仍然存在的问题视而不见。然而,一旦有人指出了其中的一点,那么其他人就很容易看到了。但首先看到它就是一件不平凡的事情。

Joel:

一开始不容易发现,但这是一种可以培养的技能。这是一种识别当前存在哪些垫脚石以及这些垫脚石可能带来什么的技能。通过一些专业领域知识,更容易识别 “邻近的不确定性区域”。例如,我对量子物理知之甚少,我很难理解什么是已知的,什么是未知的,或者当前的垫脚石是什么样的。但在我工作多年的人工智能领域,我确实对该领域中有趣的不确定性有丰富的直觉。

OSCHINA:现在的 AI 世界,有哪些很酷的尝试?

Ken:

我认为计算机辅助创作很有趣,多模态 (如文本与图像) 以及新型音乐的可能性也很有趣。比这些更酷的是幻觉的解决方案或产生真正开创性想法的能力。然而,据我所知,这些问题的解决方案还不存在。

Joel:

一个很酷的现象是,大模型正在重塑、重新想象旧算法。例如,一个大语言模型可以通过指令来创建一个计算机程序或一段文本的新变体,这将不仅仅是随机变体,而是智能变体 —— 因为大模型是在大量计算机程序和文本中训练出来的。因此,你可以使用语言模型作为智能变化的引擎,从而使新型进化算法成为可能。通常,进化算法使用随机变化 —— 但使用语言模型的进化算法更接近人类发明新想法的方式,即对其进行智能的探索性修改。

这只是大模型如何重新发明算法的一个例子,但总的来说,它们是有趣的新工具 —— 令人兴奋的新跳板 —— 并为构建以前不可能构建的东西开辟了许多新的有趣的可能性。

OSCHINA:机器之爱真的能实现吗?个性化推荐、信息茧房、偏见、制度、思想、等等各种有形或事无形的阻碍充斥在各个地方,目之所及似乎都是困难。如果把 “美好的人与机器的世界” 做为目标,我们大概率会踩到错误的垫脚石上。如果用 “寻宝原则” 做导向,放任当下的机器研究自由发展,会不会使得情况更为糟糕?而现在要做的事情又是什么呢?

Joel:

我相信,机器之爱的某些方面是可以实现的 —— 这似乎是一个简单的事实,语言模型确实可以使机器开始处理定性和心理方面的工作,这可以让我们设计出关系自身成长和发展的算法,而这正是机器之爱的核心理念。在我看来,这是一块值得关注的有趣垫脚石,尽管目前还不清楚它会通向哪里 —— 我们有理由怀疑,机器之爱的完整愿景是否会实现,它想要改变我们的世界确实还有很多障碍。但它可能会带来其他的垫脚石,以及应对这些障碍的方法 —— 我们还不知道。

除了 “机器之爱”(这只是改善机器对我们的影响的一个想法)之外,我们应该大胆地探索机器如何帮助我们人类过上更好的生活的许多不同愿景,也许这些愿景中的一个可以实现。我们永远不可能完全知道一块垫脚石会把我们带到哪里,但我们会尽最大努力,在不确定性和希望解决世界难题之间取得平衡。

我坚信, 在开发新技术时,寻宝原则不是我们应该遵循的唯一原则,让当前的机器学习不受阻碍地发展,可能会给社会带来许多负面的外部影响。一种观点认为,对社会安全的搜索也是一个开放式的搜索过程,就像对更强大的技术 (如大模型) 的探索一样。在寻找安全的过程中,就像在寻找技术一样,垫脚石的结构是不明确的,因此我们需要广泛而好奇地探索可能的干预空间 (例如,政府政策、新算法、公共教育、文化运动),同时要知道,安全无法得到完全保证。在鼓励创新的同时,我们仍应尽最大努力维护社会,这可能需要智慧、克制和创造力。

更具体地说, 在机器时代,我们越来越需要人类代理的提醒。技术的目的是为人类的利益服务,而人类是构建和设计这项技术的人。除了我们自己,还有什么能让我们保持谨慎呢?

程序员篡改ETC余额,一年私吞260余万元

微软和OpenAI的桥段,30年前已经上演过

Sam Altman重返OpenAI担任CE

这里有最开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1