划重点:
- 1
奥特曼对全民基本收入的概念进行了研究,并探索了人工智能时代可能需要的新经济模式。
- 2
OpenAI目前还未决定何时发布GPT-5,也未决定最终名称,致力于确保发布时达到高标准。
- 3
希望能够开发出一个尽可能优秀的开源模型,能够在手机上高效运行。
- 4
iPhone是人类历史上制造出的最伟大的技术产品之一,想要超越必须设定更高的标准。
- 5
期望拥有一款始终处于激活状态且极易使用的设备,可以通过语音、文字,或者更理想的状态,通过其他方式理解用户需求。
腾讯科技讯 5月12日消息,据国外媒体报道,OpenAI首席执行官山姆·奥特曼(Sam Altman)日前参加了播客节目“All-in Podcast”。在活动中,奥特曼谈到了推理计算、开源模型、正在开发中的GPT-5大语言模型、人工智能监管、后人工智能时代实施全民基本收入(UBI)、先进的智能体将如何改变我们与应用的交互方式、发生在去年年末的OpenAI“宫斗”事件等一系列话题。
此外,周五有报道称,苹果即将与OpenAI合作,预计下一代移动操作系统iOS 18可能会集成ChatGPT的功能。在访谈中,奥特曼还探讨了未来可能出现的、能够与具有人工智能功能的iPhone竞争的产品可能具备哪些特征。
以下是节目内容的全文记录。
问:我们非常荣幸地邀请到了山姆·奥特曼,一位在科技界引起轰动的创新者和企业家。让我们把时钟拨回到大约20年前,那时我有幸首次与奥特曼相遇。当时,他正致力于开发一款名为Looped的本地移动应用,而这款应用后来获得了红杉资本的支持。我们两人都成为了红杉资本的天使投资人,奥特曼在那时就展现出了他非凡的洞察力,他主导了对当时还默默无闻的金融科技公司Stripe的投资,而我则对Uber进行了投资。我们共同参与的基金,以数百万美元的投入,最终实现了超过2亿美元的惊人回报。
在那段时期,奥特曼的事业轨迹转向了创业孵化器Y Combinator,他在2014至2019年间担任了该公司的总裁。2016年,他与合作伙伴共同创立了OpenAI,带着一个宏伟的愿景--创造能够造福全人类的通用人工智能。2019年,奥特曼离开了Y Combinator,全身心投入到OpenAI的首席执行官角色中。到了2022年11月30日,随着OpenAI发布ChatGPT,奥特曼的名字开始在科技界广为人知。2023年1月,科技巨头微软对OpenAI进行了高达100亿美元的投资。
然而,2023年11月,情况突然发生了戏剧性的变化。在短短的五天内,社交媒体上充斥着奥特曼被OpenAI董事会解雇的消息,许多人猜测他可能会加入微软,而OpenAI这个即将实现通用人工智能技术的梦想团队可能会因此解散。但就在几天后,奥特曼戏剧性地重返OpenAI,再次担任CEO。
最近的报道显示,奥特曼正在寻求为一个人工智能芯片项目筹集高达7万亿美元的资金。此外,还有消息称,他与苹果前设计总监乔纳森·伊夫(Jony Ive)联手,计划从软银CEO孙正义手中募集10亿美元,开发一款能够与iPhone竞争的产品。自ChatGPT发布以来,这项服务一直在不断进步,对我们的工作方式产生了深远的影响。据报道,ChatGPT已经成为史上用户增长速度最快的消费级应用,仅用了两个月时间就获得了1亿用户。OpenAI的营收增长也同样令人瞩目,去年年底时的年化营收已经达到了20亿美元。
现在,让我们热烈欢迎奥特曼来到“All-in Podcast”节目。
奥特曼:非常感谢!
GPT-5还没确定发布日期,但正在考虑采用新的发布策略
问:业内都在迫不及待的等待着GPT-5的发布。有报道称,这款产品将会在今夏某时正式推出。能缩小时间范围吗?你们会在何时发布GPT-5?
奥特曼:关于GPT-5的发布时间,目前我们还没有确定一个具体的日期。我们对新模型的推出持谨慎态度,致力于确保它在发布时能够达到我们的高标准。正如您所提到的,自从GPT-4发布以来,我们注意到模型性能的持续提升,这表明了技术进步的自然趋势。我们相信,通过不断的使用和优化,人工智能系统将能够更好地服务于社会,而不仅仅是通过版本号的简单递增。
我们正在考虑采用一种新的发布策略,这可能与以往的方式有所不同。我们的目标是让人工智能技术更加普及,让更广泛的用户群体能够享受到先进的技术成果。我们认为,通过提供易于访问的人工智能工具,可以激发更多人的创新潜力,这是我们的核心使命之一。
我们对于GPT-5的命名和发布策略仍在讨论之中,但可以肯定的是,我们致力于让这款新模型在发布时能够为用户带来卓越的体验。我们将继续关注技术的发展,并探索最佳的发布策略,以便让更多人受益于先进的人工智能技术。
问:这是否意味着不会有很长的训练周期,而是持续不断地反复训练或训练子模型。对于大模型,未来在架构方面会有哪些变化?
奥特曼:你可以想象是,继续训练正确的模型,这似乎是合理的事情。
问:刚才你谈到GPT-5这次的发布会有点不同。你是不是在想先向付费用户发布GPT-5;亦或是现在的安全风险还很高,你们打算先让红队进行测试之后,再逐步向用户发布?
奥特曼:我们非常重视让人工智能技术变得更加普及和可及,这确实是我们的核心使命之一。目前,GPT-4主要面向付费用户,但我们正在积极探索如何让免费用户也能享受到先进的技术成果。我们的理念是开发人工智能工具,并尽可能广泛地免费提供给用户,或者以非常低廉的成本提供服务。我们相信,这样可以帮助人们利用这些工具去发明和创造新的事物,推动社会的进步和发展。虽然通用人工智能目前仍然是一个遥不可及的目标,但我们相信,通过不断的创新和优化,我们可以逐步接近这个目标。我们正在努力寻找方法,让GPT-4这样的先进模型能够以免费或低成本的方式提供给更多的用户。如果我们还没有找到如何让用户免费使用GPT-4的方法,我会非常的难过。这是我们真正想做的事情。
开源、闭源都有其独特的价值和作用,计划未来开源更多模型
问:我认为人们经常谈论着两大因素。一是在某种程度上限制了杀手级应用发展的潜在成本和延迟。第二个因素是人们在开源环境中能够长期开发应用,该领域的疯狂之处在于开源社区非常狂热。我们在一个多月前刚演示了Devin,给我们留下了非常深刻的印象。你认为开源模型在未来几年会有什么样的发展?
奥特曼:关于你提到的速度和成本问题,我们非常重视这两个因素。虽然目前我无法给出一个确切的时间表来说明何时能够显著降低成本,但我有信心我们能够实现这一目标。我们致力于减少延迟,并大幅降低成本。尽管我们仍处于对人工智能科学发展和工作原理理解的早期阶段,但我们坚信通过不断的努力和创新,我们最终能够达到预期的目标。我们目前所有的开发工作都在稳步推进中。我们认识到,当人工智能的成本变得足够低,以至于几乎可以忽略不计,同时其速度变得如此之快,以至于对我们和其他用户来说几乎是即时的,这将是一个重大的突破。我们相信,实现这一目标将为我们自己以及所有用户解锁巨大的潜力。
在开源和闭源的问题上,我们认为两者都有其独特的价值和作用。我们已经有计划在未来开源更多的模型,同时我们也在积极地开发通用人工智能,并探索如何广泛地分配其带来的利益。我们的这一战略已经得到了很多人的认同,尽管它可能并不适合所有人。我们正在构建一个庞大的生态系统,其中将包括开源模型以及基于此构建的开发者社区。就我个人而言,我对开源领域特别感兴趣,尤其是希望能够开发出一个尽可能优秀的开源模型,使其能够在手机上高效运行。目前,市场上似乎还没有一个非常好的解决方案,但我相信这将是一项非常重要的技术进步。
问:你们何时会开发在手机上运行的开源模型?
奥特曼:我不清楚我们是否会这样,也不清楚是否有人会这样做。也许Llama 3或Llama 4能够做到这些。
问:我猜测70亿参数版本的Llama 3模型可能适合在手机上运行。
奥特曼:不管这个版本的Llama 3是否针对手机,但我认为它可以在手机上运行。我还不确定,我没有体验过它。
问:当Llama 3发布时,许多人认为其性能已经与GPT-4相当,甚至在某些方面非常接近。OpenAI不久前刚发布了新版本的GPT-4,而且还在开发GPT-5。鉴于开源的Devin的优异表现,OpenAI作为行业的领先者,需要采取什么措施来维持其在人工智能领域的领先地位?
当Llama 3发布时,许多人都认为它的表现性能已经追赶上了GPT-4。我认为Llama 3的能够在所有方面都与GPT-4相当,但它好像已经非常接近。我的问题是,OpenAI不久前刚发布了新版本的GPT-4,而且还在开发GPT-5。因为开源的Devin的优异表现,OpenAI如何保持对开源模型的领先地位?
奥特曼:我们的目标不仅仅是开发尽可能智能的算法权重,而是致力于创建一个实用的智能层,供人们在各种场景中应用。在这个过程中,我们的模型虽然是核心组件,但也只是整个智能系统的一部分。我相信OpenAI在这一领域将保持世界领先的地位,并且我们有决心维持这种优势。要实现这一目标,我们还需要在系统周围构建更多的基础设施和支持工作。与其他任何企业一样,我们必须以传统的方式建立持久的价值。这意味着我们需要发现并坚持一个伟大的产品愿景,这个愿景能够持续地为客户提供价值。
我们正致力于构建一个生态系统,它不仅包括先进的人工智能模型,还包括用户界面、开发者工具、教育资源和社区支持等,以确保我们的技术能够被广泛地接受和有效利用。通过这样的全面方法,我们希望能够实现长期的成功,并在人工智能领域持续地为社会带来积极的影响。
问:在创办OpenAI之初,这家组织的目标就是开源,因为开源对任何一家公司来说都太重要了。后来开关就出现了,因为所有人轻而易举的开发和使用这项技术过于为先,我们需要锁定它。我认为这是正确的,因为愤世嫉俗的一面就像这样。从开源走向闭源,我想知道你为何最终选择了这样的道路?
奥特曼:我们发布ChatGPT的部分原因是向世界展示我们的成果。我们一直在努力传达一个信息:人工智能真的非常重要。回到2022年10月,当时并没有太多人意识到人工智能的重要性或其即将带来的影响。我们努力做这件事的一个重要部分是使人们能够实际使用这项技术。现在,实现这一目标有多种不同的方式,我认为这确实起到了非常关键的作用。然而,事实上,目前许多人正在使用免费版的ChatGPT,而我们并没有进行广告宣传,也没有考虑过盈利的问题。我们推出免费版的ChatGPT,是因为我们希望人们能够利用这些工具。我认为,这已经为人们提供了很多价值,就像是“授人以渔”。我们这么做的原因也是为了让人们更好地理解整个人工智能行业的发展态势。
至于闭源战略是否正确,目前我们还没有标准答案。我们和其他公司一样,也在探索中前行,并会在学习新事物的过程中多次调整策略。当我们创办OpenAI时,我们并不清楚事情会如何发展。在我们开发出第一款语言模型之前,我们甚至还没有开发出过任何产品。我们只是一步步地努力探索,稳步前进。我们会继续这样做。
智能只是物质的一种突现属性,就像物理定律一样
问:我认为你刚才在谈论开源和闭源问题时是这么说的:不管做出什么商业决策,所有这些模型都将会变得无限接近某个准确度水平。不是全部,但比如说有四、五个模型,它们背后有足够的资金支持,比如OpenAI、Meta、Google、微软等等。假设有四、五个,也许还有一个初创公司,以及开源模型。然后很快,这些模型的准确性或价值可能会转移到那些你能得到而别人得不到的专有训练数据上,或者别人能得到而你得不到的数据上。你是这么看待这件事的发展的吗?开源让每个人都达到一定的阈值,然后就是对数据的竞争,是不是这样?
奥特曼:我绝对不认为这将变成一场关于数据的竞赛,因为当模型变得足够智能时,它们在某个点上,至少在训练方面,将不再依赖于更多的数据。可能仍需数据来提升其实用性。在这一过程中,我学到的最重要的一课是,对于未来几年的发展趋势做出自信的预测是非常困难的,所以我目前不想尝试这样做。我确实期待世界上会出现许多卓越的模型。
在我看来,我们似乎刚刚发现了一个自然界或科学界的新事实,无论你想怎样称呼它,这几乎是一种精神上的认知。智能只是物质的一种突现属性,它就像物理定律一样。我相信人们将会理解这一点,但系统设计将会有多种不同的方法,人们会做出不同的选择,并提出新的想法。我相信,就像任何其他行业一样,人工智能领域也会出现多种不同的方法,不同的人会有不同的偏好。就像有些人喜欢iPhone,有些人喜欢安卓手机一样,我认为人工智能模型也会呈现类似的多样性。
问:关于成本和速度的问题。所有人工智能企业在某种程度上都有点受到英伟达产能的限制,是不是这样?我认为你和几乎所有其他人都已经有效地宣布了你们可以获得的芯片数量,因为这只是英伟达的最大产能。为了能够更便宜、更快地计算,获得更多的能源,需要在基础设施层面上做些什么,以便你们实际上可以解决这些问题。你们是如何帮助塑造整个行业解决这些问题的呢?
奥特曼:我们肯定会在算法上取得显著的进步,我并不想低估这一点。我对芯片和能源领域非常感兴趣。如果我们能够使相同性能的模型效率提高一倍,那实际上就等于我们拥有了双倍的计算能力,不是吗?我相信在提升效率方面还有很多工作要做,并且我期待我们能够真正开始看到这些成果的显现。除了这些,整个供应链的复杂性不容忽视。这包括逻辑芯片的生产能力,高带宽存储器(HBM)的供应量,以及我们能够以多快的速度获得建设许可、浇筑混凝土、建设数据中心,并且完成布线工作。能源的获取也是一个巨大的瓶颈。但是,我相信,当这些技术对人们有足够大的价值时,全世界都会采取必要的行动,我们也会努力推动这一进程加速发展。
当然,也存在一定的可能性,正如你之前提到的,如果在基础设施方面取得重大突破,我们可能会拥有一种更加高效的计算方法。不过,我不愿意过于依赖这种可能性,也不会花费太多时间去考虑它。
语音交互是通向未来交互方式的一个重要线索
问:那么在设备端的情况如何呢?你之前提到了能够适配手机的模型,无论是大语言模型(LLM)还是小语言模型(SLM),我相信你肯定已经在考虑这些模型的应用。但是,设备本身是否也会随之发生变化?这些设备是否也会变得像iPhone那样昂贵?
奥特曼:我对这个话题非常感兴趣,并且对计算领域的创新形态充满热情。每一次技术的重大飞跃似乎都能开启新的可能性。手机目前的卓越性能令人惊叹,因此要达到一个新的高度,门槛自然非常之高。我个人认为,iPhone是人类历史上制造出的最伟大的技术产品之一。它真的是一款非凡的设备。我之前也提到过,它已经非常出色,以至于想要超越它,我们必须设定一个相当高的标准。
问:它要么必须设计得更加复杂,要么实际上应该更经济、更易于使用?
奥特曼:几乎每个人都愿意为手机花钱,因此,如果你能制造一个成本要低得多的设备,我认为人们对于携带或使用第二个设备还是有一定的抗拒感。鉴于我们大多数人都愿意为手机支付费用,我不认为仅仅降低成本就是解决方案。
问:不同的(设备)会是答案吗?是否会存在一种专门的芯片,用来驱动手机,并且特别擅长于支持手机尺寸的人工智能模型呢?
奥特曼:很可能会有(这样的芯片),但手机制造商肯定会朝这个方向努力。这并不一定要求我们去创造一个全新的设备。我认为关键在于发掘一种真正与众不同的互动模式,这种模式是由技术进步所催生的。如果我能知道那是什么,我现在就会非常激动地投身于这个领域的开发。
问:不过,你们现在的应用已经具备了语音功能,实际上,我将手机上的快捷动作按钮设置成了直接启动ChatGPT的语音应用。我常和孩子们一起使用它,他们非常喜欢与它交流。尽管这个应用有时会出现一些延迟问题,但它真的非常出色。
奥特曼:我们将继续改进并提升语音功能的质量。我相信语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,那将是一种与计算机互动的全新方式。
问:顺便提一下,ChatGPT有时为何不响应,感觉就像是在使用一个收音机,确实非常烦人。但当它提供正确答案时,它同样令人赞叹。
奥特曼:我们正在努力改进,目前它确实显得有些笨拙,响应速度不够快,且缺乏流畅和自然的感觉。我们致力于让这些方面的体验得到显著提升。
问:关于计算机视觉领域,是否可以这样设想:配备有眼镜或者佩戴一个挂坠,这样就能将视觉或视频数据与语音信息相结合。通过这种结合,人工智能就能全面掌握你周围发生的一切。
奥特曼:多模态交互的能力极其强大,例如,可以提问:“嘿!ChatGPT,我正在看什么?”或者“我不太确定这是什么植物。”这显然是另一个探索方向。但关于人们是否愿意佩戴眼镜,或者在需要时举起某个设备来获取信息,我认为这涉及到许多社会和人际交往方面的复杂考量,尤其是在面部佩戴计算设备的问题上。
问:我们见证了谷歌眼镜的案例,曾经有人在执行任务时遭遇了身体冲突,这引发了许多问题。如果人工智能变得在每个人的手机上都无所不在,那么可能会催生哪些应用程序呢?你有没有预感到可能会发生什么,或者你希望看到什么样的应用被开发出来?
奥特曼:我期望拥有的是一种始终处于激活状态且极易使用的设备,它可以通过语音、文字,或者更理想的状态,通过其他方式理解我的需求。我设想有一个系统能够全天候地辅助我,尽可能多地收集上下文信息,成为世界上最出色的助理,不断地帮助我提升自我。当讨论到人工智能的未来时,人们通常有两种不同的观点,它们听起来可能颇为相似,但在系统设计的实际应用上却有着显著差异。一种观点是希望人工智能成为个人的一种延伸,像一个幽灵或另一个自我,能够代表我行动,甚至在不通知我的情况下处理邮件,它变得就像是我的一部分。另一种观点是希望人工智能成为一个出色的高级雇员,它能够非常了解我,我可以向它委派任务,它可以像有权访问我的电子邮件一样了解我的需求,但我会将其视为一个独立的实体。我个人更倾向于后者,认为这是我们未来发展的方向。在这个意义上,人工智能不是用户的简单延伸,而是一个始终可访问、始终卓越、能力超群的助理或高管。
智能体不只是机械地执行命令,它能够进行推理
问:智能体在某种程度上就像是你的代表,它能够理解你的需求,并且预测你的意图,这正是我对你所述内容的解读。
奥特曼:我预期将会出现类似的智能体,但在高级雇员和智能体之间还是存在区别的。我欣赏高级雇员的一点在于他们能够向我提供反馈,有时他们可能会选择不完全按照我的指示行事。他们可能会告诉我,如果按照您的要求做,可能会产生这样的后果,接着会是这样的,然后是那样的,你确定要这么做吗?智能体不只是机械地执行命令,它能够进行推理,是的,它具备推理能力。智能体与我之间的关系,是我所期待的那种与真正有能力的同事之间的互动,这与那些只会盲目遵从的人不同。
问:在这个设想的世界中,如果我们拥有像Jarvis(注:Jarvis是漫威宇宙中托尼·斯塔克的人工智能助手)这样的高级智能体,它们将怎样改变我们与应用程序的互动方式?这些智能体具备推理能力。这将对我们目前使用的产品界面产生哪些影响,尤其是在那些界面价值极高的应用上,比如Instacart、Uber和DoorDash等,它们并不是单纯提供API接口的服务,而是直接为人们提供便利的。在这样一个由智能体代表80亿人进行交互的世界里,我们对应用程序的工作方式和整个体验架构的思考需要如何转变?
奥特曼:我对打造一个既适合人类也适合人工智能使用的世界的构想非常感兴趣。我青睐于这种设计的可解释性、任务交接的流畅性,以及我们提供反馈的能力。例如,DoorDash可以向我未来的人工智能助手提供一些API接口,让助手能够自动下单,或者我可以通过手机对人工智能助手说:“好的,人工智能助手,请帮我在DoorDash上下个订单”,然后观察应用如何响应,看到界面上的点击操作,如果需要,我可以即时纠正说:“嘿,不是这个选项”,或者“嗯,我想要的是那个”。
问:所以你意识到,语音交互这种方式有潜力使得传统应用变得多余。你只需简单地说出你想要寿司,它就能根据你以往的喜好来推荐你喜欢的寿司类型,同时避免那些你不喜欢的选项,并努力为你提供最佳的点餐体验。
奥特曼:我很难想象我们完全进入一个只需简单地说“嘿,ChatGPT,给我订份寿司”,然后它回应“好的,你想从哪家餐馆订?要哪种类型的寿司?什么时间送达?”等等的世界。我相信用户界面对于许多任务来说都是非常有用的。我很难想象一个你完全不再看屏幕,而只依赖语音交互的世界,但我确实难以想象那样的场景。
问:确实如此。对于许多事务来说是这样的。比如,苹果推出了Siri,按理说我们可以通过Siri来自动预约Uber,但我怀疑实际上很少有人这么做。毕竟,为什么要冒这个险呢?正如你所指出的,因为目前语音助手的服务质量还不够高。然而,一旦服务质量足够高,我认为人们真的会更倾向于使用语音助手,因为它更加便捷。你不需要拿出手机,不需要打开应用,不需要点击任何东西。如果遇到应用自动登出,或者需要重新登录,或者进行双因素认证(TFA)的情况,整个过程就变得非常繁琐和令人烦恼。
奥特曼:我明白,对于像设置计时器这样简单的任务,我总是使用Siri,因为它非常有效且方便,我也不需要其他额外的信息。然而,对于像叫Uber这样的服务,我可能想要比较几种不同选项的价格,了解车辆距离我的实际远近,甚至查看司机在地图上的实时位置,因为有时候我可能会选择步行到某个更方便的地点。通过直接在Uber应用的界面上操作,我可以更快地获取这些详细信息,这比通过语音指令来完成整个过程要高效得多。
问:我喜欢你提出的“观看它发生“的想法,那真的很酷。
奥特曼:我认为将会有不同的界面用于不同的任务,而且我认为这种情况将会持续下去。
让人工智能加速和改进科学发现过程,最让我感兴趣
问:在所有利用OpenAI平台开发应用和体验的开发者中,是否有一些项目给您留下了深刻印象,它们即便还处于初期或类似玩具应用的阶段,却展现出了极具吸引力的发展潜力?或者说,是否有一些成果是你的团队特别指出并认为具有重要意义的?
奥特曼:我今天早上遇到了一个新建的创业团队,严格来说是由两个人组成。他们计划在夏季开展一个项目,致力于开发人工智能导师功能。我对这一领域一直抱有浓厚兴趣,尽管许多人已经在我们的平台上取得了杰出成果,但如果能够有人实现--正如他们所形容的,这将是一次“单轨列车级别”的创新--彻底改变我们学习的方式,那将是非常令人兴奋的。如果能够找到一种新的途径,让人们能够以个性化的方式探索和学习,我个人对这样的前景感到非常激动。你之前提到的与编码相关的许多事项,我认为这是对未来的一个非常酷的展望。我相信医疗保健是一个特别需要被彻底革新的领域。但就个人而言,我最感到兴奋的是加速和改进科学发现过程的可能性。虽然GPT-4显然还未在这方面实现重大突破,但它或许已经在一定程度上加快了进程,提升了科学家的工作效率。
问:这些模型与语言模型在训练和构建上有所区别。虽然它们之间存在许多共同点,但也存在许多差异。这些模型中的许多都是基于一种全新的基础架构设计的,它们专门针对特定的问题集或应用场景,例如化学相互作用的建模。是这样吗?
奥特曼:确实,某些元素是必不可少的,但我认为我们当前普遍缺失的,对于我们讨论的众多应用而言,是具备推理能力的模型。一旦模型能够进行推理,便可以将它们与化学仿真器等工具相结合,或者用于进行预测和假设。
问:确实,我今天想探讨的一个关键话题是模型网络的理念。在讨论智能体时,人们往往会想到一系列线性的函数调用,但在生物学中,我们观察到的是系统之间复杂的网络和相互作用。这些系统通过集合和网络的整合作用产生结果,而不仅仅是简单的线性调用。我们是否正处于这样一个架构的兴起之中:专业模型或网络模型相互协作,共同解决更复杂的任务集,运用推理能力,其中一些计算模型专注于化学或算术运算,而其他模型则承担不同的职责。这种架构避免了依赖单一的、全知全能的模型来处理所有问题。
奥特曼:我不确定推理能力最终能否成为一种广泛适用的功能。我有这样的预感,并且希望它是,如果真的能够实现,那将是非常理想的。不过,我并不确定它是否真的会如此。
问:让我们以蛋白质结构预测为例。存在大量蛋白质图像和序列数据,研究人员利用这些数据构建了一个预测模型,并且遵循一系列流程和步骤来实现这一点。可以设想,未来可能会有一种人工通用智能或具备高级推理能力的模型,它能够自主地构建出解决这一问题的子模型,通过搜集必要的数据并进行处理来解决蛋白质结构预测的问题吗?
奥特曼:存在许多可能性,例如,它可能为特定任务训练一个专门的模型;或者,它可能依赖于一个大型模型,该模型能够识别出它所需的其他训练数据,然后主动查询这些数据,并据此更新自身的知识库。
问:我想知道,是否真的所有这些初创公司都会失败?目前许多初创公司都在采取这样的策略:收集特定的数据,接着基于这些数据全新训练一个模型,该模型专门针对某一任务进行优化,并且在这一任务上的表现超过了其他所有解决方案。
奥特曼:某种程度上,正如我们在讨论生物学和那些复杂的系统网络时所指出的,我已经能够窥见一二。我之所以会笑,是因为最近我经历了一场严重的疾病,现在已大致康复,但整个过程就像是身体系统逐一受到打击。你真的可以明确指出,比如,这是消化系统的问题。这让我想起了我们之前讨论的,你不知道这些系统之间相互作用的复杂性,直到出现问题,这本身是一个非常有趣的现象。同时,我尝试使用ChatGPT来理解我的病情。我可能会说,我对某个问题不太确定。接着,我会在没有阅读的情况下,把相关的论文链接放入上下文中,然后发现,哦,这就是我不确定的那个问题,现在我认为应该是这样。这就是你之前提到的一个例子,你可以说,我不知道这个信息,然后你可以添加更多的上下文信息,而不是重新训练整个模型,你只需要即时地增加上下文,然后你就能得出一个结论。
问:这些用于预测蛋白质结构的模型,比如说,构成了这个领域的基石。现在,我好奇的是,Alpha 3是否能够处理其他分子类型的预测?如果可以,那么理论上最好的通用模型将能够接入、学习训练数据,并自主解决问题。或许你可以为我们举一个例子来阐释这个过程。你能和我们谈谈Sora吗?你的视频模型能够生成令人惊叹的动态图像和视频。你愿意分享的话,能不能告诉我们它的架构有何独特之处,以及它是如何区别于其他模型的?
奥特曼:确实,对于一般性问题,我们显然需要专业的模拟器、连接器和各种数据片段等工具。我有一种直觉--尽管我得强调这并没有科学依据--如果我们能够理解通用推理的精髓,并将这一原理应用到新的问题领域,类似于人类的通用推理能力,我认为这是可以实现的。这可能会是一个快速的突破过程,至少我是这么认为的。至于Sora,它并不是以语言模型为基础,而是专门针对视频处理而设计的模型。
问:显而易见,我们还未能完全实现那样的技术境界,对吧?以构建高效视频模型为例,你们可能是从零开始,采用独特的架构和特定的数据集进行开发。然而,展望未来,一个具备通用推理能力的系统--也就是我们所说的人工通用智能--理论上应该能够通过自我学习和逻辑推理,掌握渲染视频的方法。
奥特曼:我想说的是,以一个例子来看,据我所了解,目前全球最优秀的文本模型大多还是基于回归的方法构建的。与此同时,顶尖的图像和视频模型则采用了扩散模型技术,这种情况在某种程度上显得有些不寻常。
对训练数据的使用存在差异性,暂时不会进入音乐产业
问:围绕训练数据的使用,存在广泛争议。你们一直采用合理使用原则和尊重创作者权利的方式来处理问题。为何OpenAI选择不涉足音乐产业?相较于其他公司,你们的做法显得更加审慎。目前,你们已经建立了一些授权协议,但据我所知,你们与纽约时报的诉讼并未达成和解,我猜想这背后涉及的是训练数据的使用问题。你们是如何看待和平衡公平使用原则的?我们在播客中对此有过激烈的讨论。你们通过签订授权协议的行动表明了你们追求公平的决心。对于创作美妙音乐、歌词、书籍的艺术家的权利,你个人是如何看待的?当你们使用了他们的作品,创造了衍生产品,并将其商业化,这其中的公平性应如何定义?我们应如何构建一个世界,让艺术家们能够创作内容,并能够控制他人对其作品的使用?我对你个人的看法很好奇,因为我知道你在这个问题上一直思考得很深入,而我们行业中的许多人对内容创作者的权利并没有给予足够的考虑。
奥特曼:我认为不同类型的情况之间存在着显著差异。以公平使用为例,我认为根据现行法律,我们的立场是合理的。但人工智能的特殊性意味着,对于艺术等创造性工作,我们需要用新的角度来考虑这些问题。举个例子,如果有人通过阅读网上的数学资料学会了数学,我想大多数人会认为这是无可非议的。然而,对于其他情况,可能会有不同的看法……但为了避免回答过于冗长,我就不深入讨论了。
在我看来,人们普遍认为学习通用的人类知识,如数学定理,属于公共领域的一部分。而另一方面,系统模仿某位艺术家的风格或创作肖像,则涉及到更为复杂的版权问题。在这两个极端之间,存在许多不同的情况。传统上,讨论往往集中在训练数据上,但随着训练数据价值的降低,我们越来越关注模型在推理时的行为,以及它如何实时地在上下文中访问和使用信息。推理时的行为将成为新的讨论焦点,以及未来的经济模式将如何发展。
以音乐为例,如果有人要求模型创作一首泰勒·斯威夫特(Taylor Swift)风格的歌,即使该模型从未在泰勒·斯威夫特的歌曲上进行过训练,我们仍然面临一个挑战:模型可能已经了解了关于泰勒·斯威夫特的信息和她的音乐主题。这就引出了一个问题:即使没有直接训练,模型是否应该被允许模仿她的风格?如果可以,那么泰勒·斯威夫特应如何获得报酬?在这种情况下,我认为首先应该有选择加入或退出的机制,然后建立一个经济模型来处理这些问题。
从音乐产业的采样历史中,我们可以找到一个有趣的视角,来观察这种经济模式是如何运作的。这虽然和人工智能创作不完全相同,但为我们提供了一个思考的起点。
问:山姆,我想对你提供的例子提出挑战:模型通过学习歌曲结构、节奏、旋律、和声关系等元素——这些是成就音乐成功的关键因素,然后利用训练数据来创造新的音乐。这与一个人聆听了大量音乐、吸收了这些知识,并在大脑中构建了相似的预测模型或理解的过程有何不同?这两者之间的差异何在?你为什么要主张艺术家应该获得特别的报酬?这不是一个简单的采样案例,因为AI并没有复制或存储原始歌曲,而是在学习音乐的结构,不是吗?
奥特曼:我并不是想表达那个观点,因为我同意,就像人类从其他人类那里获得灵感一样,我在说,如果你说“为我创造一首泰勒·斯威夫特风格的歌。”
问:我明白了,好的,提示语中含有某位艺术家的风格。
奥特曼:我个人认为这是两个不同的案例。
问:你是否能够接受这样的情况:一个音乐模型在未向创作了这些音乐作品的艺术家支付版税的前提下,自主地通过人类创作出的所有音乐作品库进行训练。接着,你不被允许提出特定艺术家的请求,而是可以这样要求:“请为我播放一首相当现代的、关于心碎的流行歌曲,最好是女声演唱的。”
奥特曼:我们已经决定暂时不进入音乐产业,部分原因在于围绕如何界定使用界限的复杂问题。比如,我最近与一些我非常尊敬的音乐家会面,试图探讨一些边缘情况。设想一下,如果我们出资让一万位音乐家创作大量音乐,专门用于构建一个优质的训练集,使我们的音乐模型能够学习到所有关于强烈节奏结构和引人入胜的节奏的要素。如果我们仅利用这些音乐进行训练,理论上我们仍能开发出一个杰出的音乐模型,或许我们能够实现这一点。我曾将这作为一个思维实验提出,音乐家们表示,到了那个阶段,他们没有原则上的反对理由。即便如此,我个人对此仍有所保留。这并不是说我们不应该这么做,但确实存在一些考量。
问:你看到苹果最近发布的广告了吗?它将人类的所有创造力凝练在一台非常薄的iPad中。你对这有什么看法?
奥特曼:人们对此产生了非常情感化的反应,比你想象的要强烈得多。我本人对人工智能持非常积极的态度,但我相信人类创造力和艺术表达中有些东西是非常宝贵的。对于能够提升科学研究的人工智能,我们当然欢迎。然而,当涉及到能够进行深刻而美妙的人类创造性表达的人工智能时,我认为我们应该审慎行事。这种技术的发展是不可避免的,它将成为帮助我们达到更高层次创造力的工具,但在这个过程中,我们应该找到一种方式,既能推动技术发展,又能保持我们所珍视的创造性精神。
一些先进的人工智能系统将有能力造成严重的全球性伤害
问:当讨论到人工智能的监管以及在一个由人工智能主导的世界中实施全民基本收入时,有人提倡“全面监管人工智能”。这究竟指的是什么?你是否能够就加州最近提出的监管提案分享一些看法?如果你愿意,我们可以进一步探讨这个话题。
奥特曼:我对目前的情况有些忧虑。虽然我注意到有许多关于人工智能的监管提案正在讨论中,但就我个人所见,加州的许多提案引起了我的担忧。同时,我普遍担心如果每个州都独立进行人工智能的监管工作。当讨论到“监管人工智能”时,我认为人们的想法并不统一。有些人可能主张完全禁止人工智能的发展,而另一些人则可能坚持认为人工智能应当是开源的,而不是封闭的。
我个人特别关注的是,我相信在不远的将来,我们可能会面临一个时刻--我得承认,这只是一个前瞻性的声明,做出此类预测总是伴随着风险--我的预测是,在不久的将来,一些先进的人工智能系统将有能力造成严重的全球性伤害。对于这些系统,我希望能有一个类似全球监管核武器或合成生物学的国际机构,来监督这些最强大系统,并确保它们经过合理的安全测试,以防止它们失控、自我递归改进或其他类似的风险。
问:批评的声音指出,你拥有足够的资源去进行游说并与政治家建立紧密联系,而且你已经非常积极地参与其中。然而,对于那些同样对这一领域充满热情并投入资金的初创公司来说,它们可能没有足够的资源去进行游说或应对监管俘获的问题。正如风投大佬比尔·柯尔利(Bill Gurley)在去年的一次精彩演讲中提到的那样,这可能是一个值得关注的问题。也许你可以直面这个问题,并给出你的看法。
奥特曼:如果法规限定为“我们仅关注那些在价值超过10亿或100亿美元的计算机上训练的模型”,我认为这是可以接受的,可以设定这样一个标准。而且,我不觉得这样的规定会为初创公司带来监管上的负担。
非常担心监管可能会过度,GPT-4并不会构成实质性威胁
问:如果你拥有制造核武器的核材料,这通常只限于少数人所持有,因此,可以将这种情况比作需要核检查的类比。
奥特曼:确实,我觉得这个观点很有趣。关于监管问题,我想补充一点,我非常担心监管可能会过度。我相信,无论是做过了头还是仅仅做过了一点点,我们都可能会犯错。同样,如果我们做得不够,也可能出错。但我真的认为,我们有责任也有使命去讨论我们认为可能会发生的事情,以及为了正确处理这些事情我们需要做些什么。
问:挑战在于,我们现有的法规本意是保护人民和整个社会,但我们正在面临一种新类型的法规,这种法规可能会赋予政府审查代码和商业机密的权力,这是我们以前从未遇到过的。例如,加州提出的立法和一些联邦立法提案实质上要求联邦政府对模型、软件进行审计,检查和核实模型的参数和权重。在获得政府的认证之前,你无法将这些模型或软件部署于商业或公共用途。对我来说,这似乎是因为人们对人工智能的理解和它潜在的影响感到恐惧,他们希望对其进行控制,而控制的一种方式就是要求在发布前进行审计。我认为,这些立法者对人工智能的理解可能还很有限。正如你所知,甚至比任何人都清楚,随着技术的快速发展,这些法规在一年后可能就会变得不再适用。
奥特曼:我之所以提倡采取基于机构的方法来处理宏观层面的问题,而不是将这些写入法律,是因为我认为在12个月后,这些法律可能都会被证明是不正确的。即使这些立法者是世界级的专家,我也怀疑他们能否在12个月或24个月的时间框架内做出正确的决策。我不相信那些政策,比如我们要审查你的所有源代码,逐一检查你的所有权重,是的,我认为市面上有很多不切实际的提议。但是,就像飞机在获得认证前需要经过一系列的安全测试一样,这与阅读你所有的代码完全不同,我们更应该审查模型的输出结果,而不是模型的内部细节。我想说的是,我认为进行安全测试是有意义的。
问:我们怎样才能达到那个目标呢?我不只是代表OpenAI,而是代表整个行业,乃至全人类发声。我担心,如果我们限制了那些能够极大推动人类进步的卓越技术的发展,我们可能会让自己回到一个类似于黑暗时代的局面。我们该如何转变当前的情绪并实现这一目标?因为政府层面的进展太快,而许多人似乎并没有正确处理这个问题。另外,Llama的架构决策非常有意思,它的理念是允许Llama尽可能自由地发展,同时我们还有另一个名为Llama卫士( Llama卫士)的系统,它旨在提供保护性的控制措施。你认为这种方法是否能够正确解决问题,或者你对这个问题有何看法?
奥特曼:鉴于当前模型的能力,无疑会出现一些问题。我并不打算对这些问题轻描淡写,也不想忽视它们的严重性,但对于像GPT-4这样的模型,我个人并不担心它们会带来灾难性的风险。我相信,对于如何安全地部署这类模型,存在着多种可行的方法。如果我们在这个观点上达成一致,可能会发现更多的共识。你提到的一个例子特别有趣,那就是技术上有潜力进行递归自我改进的模型,即便它们实际并不会被这样使用,比如自主设计和部署生物武器,或者涉及到递归自我改进的新模型。
对于这些有潜在威胁的模型,我认为应该在国际层面进行安全测试。我认为GPT-4并不会构成实质性的威胁,并且有许多安全的方式来发布这样的模型。但你也了解,当涉及到可能导致大量人员伤亡的情况时,比如飞机或其他许多例子,我们很乐意有一套测试框架来确保安全。当我登上飞机时,我通常不会担心它的安全性,因为我假定它是安全的,对吧?现在,人们对此有很多不必要的担忧。
未来可能不仅仅是关于全民基本收入,而更像是全民基本计算资源
问:关于工作的问题,你在Y Combinator的时候进行了一些测试,我想你对全民基本收入进行了一些研究,你的研究结果很快就会出来。
奥特曼:这是一项持续五年的研究项目,它现在已告一段落,或者说,这个项目实际上是五年前启动的。项目初始阶段进行了一项试验性研究,之后则是长期的研究运行。
问:你能解释一下为什么决定启动全民基本收入项目吗?你的初衷是什么?
奥特曼:我们在2016年开始探讨这个问题,也正是在那个时期,我们开始严肃地对待人工智能。我们的理论是,无论对于社会、就业、经济,还是在更深层次上,比如社会契约的本质,可能发生的变化都是如此之大,以至于我们需要进行大量研究,探索重新组织社会结构的新方法。我也认为,我对政府在大多数旨在帮助贫困人口的政策上的做法并不十分满意。我更倾向于相信,如果直接给人们金钱,他们能够做出明智的选择,市场也会相应地发挥作用。
我非常支持提高基本生活水平,减少并消除贫困,但我对于寻找一种比现有社会安全网和现行处理方式更有效的解决方案非常感兴趣。我相信,金钱虽然不能解决所有问题,也不会让人即刻感到幸福,但它可能能解决一些问题,可能为人们提供一个更好的起点,帮助他们自助,我对这样的前景非常感兴趣。现在,随着我们看到人工智能的发展方式,我在思考,是否有比传统的全民基本收入(UBI)更好的做法。我在想,未来可能不仅仅是关于全民基本收入,而更像是全民基本计算资源。例如,每个人都可以获得一定量的GPT-7计算能力,他们可以使用它,可以将其转售,或者捐赠给其他人用于癌症研究等。但你所获得的不是金钱,而是相当于一部分生产力的份额,你拥有的是生产力的一部分。
被解雇后几小时都处于彻底的困惑状态,董事会的意图是真诚的
问:究竟发生了什么事?你曾经被解雇,却又回来了,那是一场内部的权力斗争吗?有没有人背叛了你?你有没有取得人工通用智能的突破?究竟是什么情况?请告诉我们。
奥特曼:我遭遇了被解雇的情况,当时我在考虑是否返回岗位,因为那时我感到非常沮丧,有些迷茫。但随后我意识到,我对OpenAI以及那里的同事们怀有深厚的感情,我决定要回去。我明白重返岗位将会面临挑战,实际上,这个过程比我预想的更加艰难,但我觉得可以应对。我同意重返OpenAI。董事会在搞清楚状况上花费了一些时间,而在此期间,我们尽力保持团队的完整,并继续为我们的客户提供服务。随后,我们开始制定新的计划。最终,董事会决定任命另一位临时CEO。当这位临时CEO上任后,许多人感到惊讶,他的名字是埃米特·谢尔(Emmett Shear)?他在职的时间非常短暂。
我前一天晚上先收到了一条短信,紧接着又接到了一个电话,之后一切就变得非常混乱。我的手机几乎变成了摆设,因为它不断地震动,充斥着短信和来电。基本上,我就像是通过社交媒体被解雇的,这种情况在特朗普执政期间也发生过几回。在酒店房间里,我几小时都处于一种彻底的困惑状态,努力想弄清楚下一步该怎么办。然后事情变得非常奇怪。我大约在下午3点左右飞回家,一路上手机不停地响,电话和信息几乎没有断过。到了晚上,我和一些人面对面地见了面,我决定,好吧,我将继续进行人工通用智能的研究,并对未来发展感到乐观。然后第二天早晨,我和几位董事会成员通了电话,讨论了我可能回归的事情,这又引发了一连串的忙碌和混乱。最终,尽管中间经历了许多疯狂的时刻,但事情得到了解决。
OpenAI当时只有一个非营利董事会,因此所有的董事会成员都是独董。董事会的成员数量已经减少到了六个人。他们先是让时任董事长兼总裁格雷格·布洛克曼(Greg Brockman)离开了董事会,随后又解雇了我。情况就是这样。
问:我的意思是,是否在董事会中,那些只具有非营利组织背景的成员与那些具有初创公司经验的成员之间发生了文化冲突?如果你愿意,你能否分享一些关于导致这些决策背后的动机的信息,或者是任何你愿意透露的细节。
奥特曼:我总是认为文化冲突是不可避免的。显然,并非所有董事会成员都是我特别喜爱的人,但我对他们对待人工通用智能的严肃态度以及对确保人工智能安全重要性的认识持有深深的敬意。尽管我对他们某些决策和行为持有强烈的异议--我确实有这样的异议--但我从未对他们的诚信或对我们共同目标的承诺,也就是实现安全且有益的通用人工智能感到怀疑。
问:你是否认为他们在处理过程中做出了正确的决策,或者是否知道如何平衡所有需要妥善处理的事务?
奥特曼:我并不这么认为。但我确实相信,他们的意图是真诚的,他们对通用人工智能的重视以及对正确处理这项技术的承诺是认真的。
“7万亿美元”项目不是个人的项目,而是OpenAI的项目
问:我想询问有关OpenAI的使命,其明确的目标是开发人工通用智能。这确实是一个非常有趣的目标。许多人认为,如果我们成功创造了通用人工智能,这可能会是一个意料之外的结果,甚至可能是某些事情出现了严重错误的标志,这让他们感到非常害怕。然而,OpenAI实际上将此作为其核心使命。这样的使命是否为您所从事的工作带来了更多的担忧?我理解,它同样也能激发动力,但您是如何平衡这两者的?您为什么会选择这样的使命?
奥特曼:我首先会回答第一个问题,然后是第二个问题。我认为,人工通用智能的发展确实引起了广泛的恐惧,这是可以理解的,因为许多人对当前的人工智能,乃至未来的AGI都感到害怕。尽管如此,他们对人工智能目前的发展感到兴奋,对未来的可能性感到更加兴奋,尽管这种兴奋伴随着更深的忧虑。我们正在努力应对这些复杂的情感,但我认为通用人工智能的出现是不可避免的,它终将实现。我相信,尽管如此,它将带来巨大的益处。然而,我们确实需要找到一种合理的方式来引导我们走向这一未来。将会有很多变化发生,而变化往往让人们感到不适,所以我们需要在很多方面做出正确的决策和调整。
问:你是一位杰出的交易者。我见证了你整个职业生涯,你在交易方面的确非常出色。你拥有广泛的人脉,而且在筹资方面技艺高超,成效显著。你在投资界的动作,以及你所参与的公司筹集了巨额资金来建设芯片厂等事宜,所有这些都显示了你的实力。不过,这里稍微夸张了一点,我们都知道,你并非真的筹集了7万亿美元,那可能是某公司的市值。暂且不提这些,问题在于,尽管你完成了众多交易,但有人对你缺乏信任,这究竟是为什么?你的动机何在?你追求的最终目标是什么?哪些机遇应当保留在OpenAI内部,而哪些可以归属于你个人?是不是因为那些非营利组织的人对你有所怀疑?
奥特曼:关于设备公司或芯片制造公司的项目,这些并不是我个人的项目,而是OpenAI的项目。相应的,OpenAI将会获得相关股权。我理解外界可能会有这样的看法,尤其是那些不需要日常评论这些事务的人。这是公平的,因为我们还没有宣布这些事项,它们尚未完成。我并不认为世界上大多数人会像你们这样深入思考这些问题。
我也认同,这种情况确实容易引发众多阴谋论,特别是在科技评论家中。如果能回到过去,我会更加明确地表达我持有股份的意图,并确保这一点非常清晰。这样,每个人都能理解,尽管如此,我依然会投身于其中,因为我深切关心通用人工智能,并相信这是全球最引人入胜的工作。至少,这样做可以向所有人清楚地传达芯片项目的本质。(编译/无忌)