AI界的“科技春晚”、OpenAI开发者大会,到底有多令人兴奋?
11月7日,在OpenAI开发者大会之后,科技博主Dan Shipper发表了一篇有关他在这场大会上见闻的文章,他介绍了OpenAI提出的主要更新,并称OpenAI的进步速度惊人,未来几个月和几年将“非常疯狂”。
Shipper说,OpenAI推出的GPT-4 Turbo有着五大升级:更大的上下文容量、更高的智能级别、更快的响应速度、更低的价格以及更简单的操作。它不仅令模型本身得到加强,与模型交互的方式也更简单、便捷。全新的检索功能和自动维护对话状态使开发者可以更容易地构建应用;无代码自定义ChatGPT又降低了普通用户的门槛。
他认为,以上的这些特性为OpenAI日后推出代理服务的更新奠定了基础。所谓代理,即模型可以自主规划和执行更复杂、多步骤的任务,并且在没有监督的情况下完成。虽然GPT-4现在还没有“聪明”到那个程度,但OpenAI已经在为这个目标做准备。
Shipper还分析了OpenAI试图建立应用商店的战略。他认为这个战略可以让用户建立自己个性化的GPT并且据此收费,是一种令构建聊天机器人的能力民主化的表现。但这种战略同时也存在问题,比如用户可能对于在不同版本的ChatGPT之间切换感到疲惫——Shipper认为这是OpenAI需要解决的问题。
最后,他还提到了OpenAI与开发者之间的微妙关系。他指出,OpenAI近来发布的许多更新更多地针对的都是消费者,而非开发者,但OpenA最初成立的目标却是服务开发者。这造成了一种矛盾,即ChatGPT会直接与开发者产生竞争。
Shipper认为,如果OpenAI不得不在ChatGPT和其开发者生态系统之间做出选择,它将选择前者:
ChatGPT是OpenAI最有价值的高质量训练数据来源,所以它是改进模型质量的最佳途径。
Shipper补充称,这实际上是许多科技公司所面临的核心问题,比如苹果也因其内部产品与第三方开发者产品竞争而遭到批评,但这个问题对于OpenAI来说可能更为严峻:
这就像苹果允许开发者发布自己版本的iOS。
但总体而言,Shipper认为,OpenAI的这场活动仍然是激动人心的,并且展示了这家公司惊人的进步速度:
现在没有任何公司比OpenAI做的工作更有趣、更快。这家公司的进步速度惊人,在可预见的未来也没有放慢的迹象。
在这个会议上,业内的说法是,OpenAI是一个人才强者,给人的感觉非常像鼎盛时期的Stripe。(事实上,我听说OpenAI聘用了许多曾在Stripe工作过的人。)
房间里的能量是显而易见的。我认为科技行业中没有更大、更有趣的故事了。未来的几个月和几年将非常疯狂。
以下为Shipper在其创办的科技资讯网站Every上发表的文章原文,由华尔街见闻整理编译:
我在OpenAI开发者日上的见闻
我喜欢观察人们以为无人注意时的举止动作。
这就是参加OpenAI开发者日等活动的难得之处:你可以看到摄像头没有捕捉到的东西,听到台上没有说出口的话语。
现场人头攒动,水泄不通,WiFi飞快,LED灯闪闪发亮。这是为AI技术迷如我准备的魔术秀。
我在人群中穿梭,做着我的专利动作FCO:"偷偷摸摸地窥视会议"(Furtive Conference Ogle)。我会看到某个也许很有名的人——比如说,Roon,或者Karpathy,或者Kevin Roose——然后迅速低头看一眼他们的徽章,在他们给我一个"嘿,我的眼睛在这里,伙计!"的表情之前又抬起头来看他们的脸。
我通常喜欢在活动中坐在后排,但在开发者日我确保坐在了前排。我想近距离观看这场魔术秀。
Sam Altman走上舞台,向观众致意。在他表演时,我可以从他的脸上和身上看到紧绷、内敛、紧张的能量。我能从他的表演中感受到他经过数小时的练习。简短的开场独白之后,Sam介绍了一段视频,视频中创意专业人士、开发人员和普通人都在谈论他们是如何使用ChatGPT的。灯光暗下来,他走到一边,视频开始了。大家都在看视频,我却在看Sam。
他独自站在舞台一角的阴影里。他穿着深色牛仔裤和原色的阿迪达斯x乐高合作款运动鞋。他双手合十,目不转睛地盯着地板。Sam很紧张,总是"绷着"。但在舞台一侧,听着正在播放的视频,他却显得不修边幅,不学无术。我感觉自己抓住了魔术师操纵一枚隐藏硬币的左手,而观众们却在看他挥舞的右手。
暂时看穿魔术师的秘密会打破他们的魔力。但它也会创造一种新的魔力:你会将魔术师看作一个人类。吃饭,呼吸,一条腿一条腿地穿裤子,却仍然施法。
Sam正在成为科技界的传奇人物。但在舞台上的那一刻,他也是一个人。他看起来乐在其中,观察并期待着自己创造的东西,并看着它在世界最大的舞台上上演。他实现了所有曾经制造过某样东西并希望世界会喜欢它的人的梦想。
目睹他那一刻本身就值回入场券的价格。我不会很快忘记。
以下是他要告诉我们的:
更大、更智能、更快、更便宜、更简单。
这就是OpenAI昨天宣布的主要变化。让我们逐一回顾这些更新,并讨论它们为何如此重要。
一个新模型:GPT-4 Turbo
更大
OpenAI推出了一款新模型GPT-4 Turbo,它拥有128K的Token上下文窗口。这意味着你发送给GPT-4 Turbo的每个提示符可以相当于300页的文本。以下这些东西在300页以内:
- 埃里克·莱斯的《精益创业》的全部内容
- 圣埃克苏佩里的《小王子》三本
- 我中学时喜怒无常的日记的至少一半
这比今天之前最广泛使用的GPT-4版本的上下文窗口长度增加了16倍。它显著增强了开发人员使用GPT-4可以运行的查询的复杂性和功能。以前,开发人员必须花费时间和精力来决定将哪些信息放入他们的提示符中,这是LLM性能最重要的瓶颈之一。
128K的上下文窗口极大地简化了这一任务,但并未解决所有问题。过长的上下文窗口不易管理,而且语言模型会越来越多地忘记或忽略上下文信息。我们还不知道GPT-4 Turbo是否存在这些问题,我会在使用过程中与你分享。
更智能
GPT-4 Turbo在以下几方面比OpenAI以前的模型更智能:
它可以同时使用多种工具。之前版本的GPT-4引入了工具使用,我有报道过。工具使用允许GPT-4调用开发者定义的工具——如网页浏览、计算器或API——来完成查询。之前,GPT-4每次只能使用一个工具。现在它可以同时使用多个工具。
知识截止时间更新。之前版本的GPT-4只知道到2021年9月之前的事件。这个版本更新到了2023年4月,使其更加可靠。
GPT-4会JSON。JSON是一种非AI应用可以轻松读取的文本格式。GPT-4 Turbo可以可靠地以这种格式返回结果——使其更易与其他软件集成。之前,开发者需要通过例如告诉GPT如果格式错误就会被解雇来“哄骗”它正确格式化输出。不再需要哄骗了。
GPT-4可以编写和运行代码。一段时间以来,ChatGPT Plus用户可以使用代码解释器(后改名为高级数据分析),这是一个可以为你编写和运行Python代码的ChatGPT插件。它就像一个口袋里的数据科学家——现在开发者可以通过GPT-4 API使用和集成到自己的程序中。
多模态。GPT-4 API可以接受图像作为输入:开发者可以发送任何图像,GPT-4可以告诉他们看到了什么。它还可以进行文本到语音,这意味着它可以用人声回复文本输入。它还可以用DALL-E进行图像生成。
更快
据我所知,目前还没有公开的速度基准测试,但Sam说它更快。根据我昨晚穿着睡衣进行的科学测试,他是对的。它真的很快。它让GPT-4望尘莫及,看起来至少和GPT 3.5 Turbo一样快,甚至略快于GPT 3.5 Turbo——之前最快的模型。
更便宜
GPT-4 Turbo比GPT-4便宜3倍。我不记得有哪家公司能在大幅提升性能的同时还能降低价格。
我们很幸运,OpenAI采用的是硅谷的游戏规则,旨在创造大规模应用,而不仅仅是高额的企业合同。只要足够便宜,人工智能就能为每个人所用,而这正是OpenAI的目标。
如果IBM发明了GPT,你认为它会做这样的事情吗?不会。
更简单
OpenAI也使开发者和非开发者更容易与GPT-4 Turbo交互。该公司使许多第三方库的功能(以及开发者通常编写的模板代码)变得不必要。以下是一些方式:
检索。这是一个重大进步。提高大型语言模型性能的最重要方式之一是让模型访问私人数据,如公司知识库或个人笔记。以前,这种功能需要手动构建(就像我为我的Huberman实验室聊天机器人所做的那样),或使用第三方库,如Langchain或LlamaIndex(我是后者的投资人)。OpenAI通过其检索功能将这些库的部分功能集成到了其核心API中——使开发者更容易开始构建GPT-4应用程序。
这会产生有趣的结果。一方面,它减少了对这些第三方库的需求。另一方面,OpenAI的检索机制目前是一个黑箱,没有可配置性。检索是一个难题,不同目的有许多不同的检索机制。OpenAI的新发布涵盖了基础知识,但Langchain和LlamaIndex实现了各种各样的检索类型,并且适用于非OpenAI制作的模型——所以它们的服务仍有需求。
保存状态。我之前写过,GPT-4就像《初恋50次》里的朵琳·芭丽摩:每次和它交互时,你都必须一次又一次地介绍你是谁,为什么它爱你。GPT-4 API可以通过一个名为"Threads"(与Meta的Twitter克隆版无关联)的新功能自动记住对话历史,节省开发者的时间和麻烦,因为他们不再需要自己管理对话历史。
自定义无代码ChatGPT。OpenAI还使任何人都可以轻松构建自己的自定义ChatGPT版本,内置私人数据——无需编程。任何人都可以设置一个ChatGPT版本,具有自己的个性和访问私人知识的能力。这是一个重大进展。今年早些时候,我为Substack作者Lenny Rachitsky构建了一个基于他的新闻稿存档的机器人。如今的更新意味着任何人都可以构建等效的机器人——无需编码。
GPT应用商店。OpenAI宣布任何人都可以在公共应用商店中列出自己的GPT并为之收费。我主张将聊天机器人作为一种新内容形式已经近一年了——这一发展支持了这一论点。
无需切换模型。这是一个巨大的更新。在以前版本的ChatGPT中,您必须选择要使用的模型: GPT-3.5、GPT-4、GPT with DALL-E、GPT with Web Browsing或GPT with Advanced Data Analysis。现在,您只需要向ChatGPT发送一条消息,它就会为您选择合适的模型。用户可以更轻松地将ChatGPT的不同功能组合使用,无需来回切换,而且这为开发者创造了新机遇(本文后面会涵盖)。
增量更新——为未来奠定基础
所有这些更新都很棒,但它们大多是增量。它们在API中构建了许多开发人员必须自己完成的任务,从而使开发人员构建的东西更快、更便宜、更强大。
不过,这些特性为一个可能更重要的更新奠定了基础:代理。代理是一种模型,它可以被分配复杂的、多步骤的任务,并在没有监督的情况下完成这些任务。这就是GPT-4的新助手API。
这是支持检索、保存状态和工具使用的API(如上所述)。这些要素加在一起,就是代理服务的开始。从目前的情况来看,OpenAI似乎正在预测一个世界,在这个世界中,您将能够给助手分配一个目标,给他们一组工具,并让他们自己完成目标。
我们离那还很远,因为GPT-4还不够聪明,无法自主规划和执行任务。但OpenAI现在正在奠定架构和安全基础,并有意推出渐进式步骤,以使技术准备就绪。
OpenAI正试图打造一个应用商店
今年4月,OpenAI推出了插件,允许用户从ChatGPT内部访问第三方服务和数据。有很多关于插件将成为一个新的App Store的宣传,但事实并非如此。OpenAI从未发布过相关数据,但据我所知,第三方插件的采用率非常低,尽管OpenAI构建的两个插件:代码解释器和DLL-E的采用率很高。
现在,OpenAI凭借GPT再次尝试这一点——它的服务允许任何人使用私人数据创建ChatGPT的定制版本:
任何用户都可以创建GPT。你可以定义它的个性:它如何回应询问,使用什么声音和语气。您可以让它访问一些工具,比如执行代码的能力,或者从私有知识库中获得问题的答案。然后可以发布gpt供其他用户使用。
我安装了一个名为“谈判者”的新GPT(由OpenAI构建),它可以帮助你在任何类型的谈判中为自己辩护。它显示在我的ChatGPT侧栏如下:
如果我点击谈判者,它将把我从普通的ChatGPT中移出,进入一个专门设计的体验,帮助我在任何谈判中获得最佳结果:
我很喜欢这种方法。我喜欢这个让构建聊天机器人的能力民主化的想法——我可以预见,在接下来的几周里,我将在这里进行大量的实验。
尽管如此,我还是有疑问。它面临着与OpenAI失败的插件实验相同的问题:没有人愿意为不同的用例在不同版本的ChatGPT之间切换。
更好的方法是让ChatGPT能够在需要时自动切换到特定的个性,比如“谈判专家”,并在不需要时再切换回来。在这发生之前,我看不到这些机器人有太大的采用。
但如果它发生了,那将是巨大的。为ChatGPT下载一个新的个性将等同于让你的AI阅读一本新主题的书或上一门课。在这个世界里,会有一整个经济体的人创建的内容是专门针对LLM而不是人类。例如,我可能会购买ChatGPT阅读和摄取的谈判书等价物,而不是购买一本自己阅读的谈判书。
因此,我认为OpenAI最终确实有机会建立一个应用商店体验。但在他们能够弄明白如何让ChatGPT在长长的个性列表之间自动切换之前,这是不会发生的。鉴于OpenAI改变了ChatGPT,以便您不必在其内部模型之间切换,这对自定义GPT来说也可能很快就会到来。
OpenAI与开发者的关系
这个开发者大会最引人注目的一件事,是OpenAI发布的许多更新更多地是针对消费者而不是开发者。例如,自定义GPT是面向消费者的,OpenAI发布的一些ChatGPT特定更新也是如此。这反映了一件重要的事情:OpenAI目前处于消费者公司和开发者公司之间。
ChatGPT生来就是有原罪的。当OpenAI刚开始时,其目标是服务开发者——直到它意外地创建了有史以来最大的消费者应用。不幸的是,这使该公司与开发者处于对立面,因为ChatGPT直接与开发者想要构建的许多东西竞争——无论是在消费者层面还是基础设施层面。
如果OpenAI不得不在ChatGPT和其开发者生态系统之间做出选择,它将不得不选择ChatGPT。ChatGPT是OpenAI最有价值的高质量训练数据来源,所以它是改进模型质量的最佳途径。
不仅如此,OpenAI还正在朝着商品化和消费化开发工作的方向发展。ChatGPT本身可以把任何人变成一个半熟练的程序员。它昨天推出的功能允许任何人在不需要编码的情况下构建聊天机器人。
这是该公司核心的一个基本紧张关系。这个紧张关系也是许多平台的核心——例如,苹果公司面临着iOS和MacOS的紧张关系。苹果因内部产品与第三方开发者产品竞争而遭到批评,这被称为“夏洛克”。
但对OpenAI来说这更成问题,因为它的消费者产品与它为开发者提供的产品惊人地相似。这就像苹果允许开发者发布自己版本的iOS。
我猜如果你想在OpenAI生态系统中发挥作用,最好的方法是收集将对使用ChatGPT的某人有用的私人数据集,并将其作为自定义GPT发布。
OpenAI可能会投资于使GPT在ChatGPT界面中更易访问、随时间更强大。你带到派对上的优势将是私人的、经过策划的数据——以及一套规则,用于说明如何为特定类型的用户在特定情况下运用这些数据。这很可能不是OpenAI要直接竞争的东西——所以这是一个双赢。
全球最激动人心的公司
现在没有任何公司比OpenAI做的工作更有趣、更快。这家公司的进步速度惊人,在可预见的未来也没有放慢的迹象。在这个会议上,业内的说法是,OpenAI是一个人才强者,给人的感觉非常像鼎盛时期的Stripe。(事实上,我听说OpenAI聘用了许多曾在Stripe工作过的人。)
房间里的能量是显而易见的。我认为科技行业中没有更大、更有趣的故事了。未来的几个月和几年将非常疯狂。
零碎事项
多样性。我很欣赏这次会议的包容性。据我所知,这家公司提供的食物非常美味,是由当地女性或少数族裔经营的企业提供的。演示和小组讨论的演讲者非常多样化,他们在OpenAI和Shopify和Salesforce等其他大型科技公司担任领导职务。这一切都很低调,没有表演。在我看来,OpenAI做得对,值得赞扬。
OpenAI和微软。一位与会者对我说,他认为OpenAI与微软的关系让他想起了苹果与英特尔的长期合作关系。处理器是英特尔制造的,其他一切都是苹果做的。在OpenAI的案例中,微软提供托管基础设施,而OpenAI负责其他所有工作。这不是一个完美的类比,但它引起了我的共鸣,尤其是在萨蒂亚·纳德拉(Satya Nadella)出现在这次会议上,在Sam发表主题演讲时与他站在舞台上。
有人能分清OpenAI的命名吗?我简直不敢相信它将它的新自定义无代码ChatGPTs命名为“GPTs”。需要有人出面干预——这太令人困惑了。