神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:关于OpenAI最近干货很多的第一次开发者大会,评论文章已经够多了。不过这些评论文章关注的焦点是在面向开发者提供的那些人工智能能力上,比如GPT-4 Turbo 与 GPTs 的能力上。但知名科技博主Ben Thomspon的视角比较独特,他认为,从用户体验而言,消费者更看重便利性和易用性,换句话说,一体化将继续战胜模块化。而对于靠着ChatGPT走红,无意中变成一家消费者科技公司的OpenAI来说,还有很长一段路要走,或者说,这条永无止境。文章来自编译。
2013年那时候,没有比新款iPhone的发布更大的事件了;这场发布会唯一的竞争对手是 Google I/O,也就是最新版的 Android 发布的时候(硬件总是要打破平局,包括苹果会在 WWDC 上推出 iOS)。这不仅是因为当时智能手机相对较新,还在补充关键功能,而且这些平台的战略决策和最终命运仍然是一个悬而未决的问题。更重要的是,科技行业的整个未来显然与上述平台及其相应的操作系统和设备息息相关。主旨演讲怎么可能不是大事呢?
现在十年过去了,科技圈主旨演讲的重要性已经减弱,就苹果而言,主旨演讲已经完全消失,取而代之的是预先录制的营销视频。我很想对这个表达一下不满生气,但他们有自己的道理:介绍iPhone 的力度并不是因为苹果的演示而被削弱,而在于苹果的演示反映出这样一个现实:围绕着 iPhone ,最重要的问题与营销策略有关。 iPhone 产品线该如何进行细分?该如何定价?你希望建立什么样的品牌亲和力?之前我刚刚总结过 iPhone 15 的发布,并且讲过,就战略考虑而言,事实上智能手机时代已经结束了。 iOS 与 Android 已经尘埃落定,但接下来是什么呢?
答案显然是人工智能,但即便如此,大家似乎并没有多少动静:苹果除了在财报电话会议上向投资者保证自己正在研究这一领域外,还没有怎么讲过生成式人工智能; Google I/O 当然要讲人工智能,但主要是在谷歌自家产品的背景下谈——而他们并没有什么产品是真正发布的——我当时的文章很快就转向人工智能创新本质的哲学讨论(维持与颠覆)、技术革命与对齐的问题,以及对即将到来的监管之战给出预览。
Meta 的 Connect 主题演讲更加有趣:他们不仅将人工智能的角色添加到 Meta 的社交网络,而且明年你还可以通过Smart Glasses把人工智能带在身边(我告诉你过的,硬件很有趣!)。不过,这些公司掀起的动静似乎都比不上近日 OpenAI 举办的开发者大会(这是他们第一次举办):在科技领域,任何东西的趣味性都比不上一款实现了产品市场匹配的消费者产品。对我来说,这足以让我写出一种类型的文章:对主旨演讲评头论足。
首先,就主旨演讲作为工件的意义而言,这是一个非常好的主旨演讲。OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)在与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)幽默的交流中承诺,“我不会占用你太多时间”;因为纳德拉亲自光临旧金山也许只是为了给这次活动站场:在这种情况下,他让现场观众见证了一场紧凑的演讲,内容很有趣,让他们渴望能了解更多。
阿尔特曼本人在舞台上表现出色,他身上有一种只有在现场主旨演讲时才会迸发的兴奋感。他似乎从来不知道其他主持人来自舞台的哪一边,这一点很人性化。与此同时,现场演示不仅顺利进行,而且还利用了演示的现场性:在一个例子中,演示者指示她创建的 GPT 给 阿尔特曼发短信,然后他举起了自己的手机,表示已经收到消息。在另一个例子当中,GPT 随机选择了五位观众,给了他们500 美元的 OpenAI API 积分,然后将散发给所有人。
与此同时,演讲法颁布的新产品和功能“当天”就可用,而不用像 I/O 或 WWDC 等活动日益出现的情况的一样,要等几周或几个月;所有这一切,给人一种明显的进步与兴奋感,就人工智能而言,这种感觉基本上是正确的。
GPT-4 Turbo 就是我所谓的“基本上”的一个很好例子。这个 API 包含有六项新功能:
增加上下文长度
更多的控制,尤其是在模型输入与输出方面
更好的了解,这既意味着对这个世界认知的截止日期更新为 2023 年 4 月,又意味着为开发者提供轻松添加自己的知识库的能力
新模态,如 DALL-E 3、Vision 以及 TTS(文本转语音)都将包含在 API 内,新版的 Whisper 语音识别也即将推出。
定制,包括微调与定制模型(但阿尔特曼警告说,定制的价格不会便宜)
更高的速率限制
需要明确的是,API采用的基础模型还是一样的(GPT-4);这些功能只是让 API 在功能和性能方面变得更加有用。这还说明了 OpenAI 是如何通过核心功能的迭代增强,变得更像一家产品公司的。是,他们的使命依然是 AGI(通用人工智能),核心科学团队几乎肯定正在研究 GPT-5,但阿尔特曼和他的团队并不只是把模型扔出来,让行业其他人来弄清楚来了事。
下一个“功能”与 GPT-4 Turbo 的引入相关:这款API 变得越来越便宜(输入token便宜了 3 倍,输出token了便宜 2 倍)。不出所料,这一消息引起了与会开发者的一片欢呼;作为一名分析师,让我叫起来的是阿尔特曼对公司优先事项的明确阐述:先是降低价格,然后是提高速度。这是不是正确的优先顺序当然有待商榷(我认为是的,因为现在的最大需要是增加实验,而不是优化),但我欣赏他们的明确。
之后的部分是对纳德拉的简短“采访”,这个动作也是恰当的:OpenAI 的定价最终取决于微软搭建什么样的基础设施来支撑这种定价的能力。实际上,纳德拉在微软最近的财报电话会议上解释了微软如何实现这一目标:
确实,我们采取的是全栈的做法,无论是 ChatGPT、Bing Chat ,还是我们所有的 Copilot,大家都用的是同一个模型。因此,从某种意义上说,我们在做这么一件事,我们对这个模型进行了非常非常充分的利用,我们对这个自己训练的模型进行了大规模的推理。这种优势会一直渗透到内部的使用、第三方的使用,而且随着时间的推移,你可以看到这个技术栈的优化会一直延伸到硅片,因为开发者正在使用的抽象层要比底层的内核高得多,但如果你愿意的话,你也可以利用底层。
因此,我觉得我们采取的是一种基本的方法,这是一种技术向的做法,即我们将拥有所有可用的Copilot及其技术栈。这并不意味着我们就没有人给开源模型或专有模型做训练了。我们还有很多开源模型。我们进行了一系列微调,进行了一系列有人类反馈的强化学习(RLHF)。人们利用它的方式有很多种。但关键是这个,我们对一个经过训练,一个我们所有第一方 SaaS 应用以及 Azure AI 服务的 API 都用来进行推理的大模型进行了大规模的使用……
我们从云业务方面学到的一条经验是——我们不是一家经营不同业务的集团,而是一个跨微软各种产品组合的技术栈,我认为,这一条会非常重要,因为考虑这种开支的规模,面对这样的人工智能转型,如果对自己的各项业务资本支出不遵守纪律的话,这些累计的资本支出会让企业遇到大麻烦。
投资OpenAI 让微软受益,这个事实显而易见;这也清楚地表明,OpenAI 也从微软那里获得了独特的好处,这种好处他们没法从其他云提供商那里获得:因为微软是一家往基础设施砸钱来跑 OpenAI 模型的产品公司,在使用之前先投资,做优化,微软负担得起,这是光靠自己OpenAI 做不到的,就算有其他云提供商的支持也做不到。在这种情况下,开发者需要支付的费用变少了,或者在理想情况下,有更多的自由度来发现用例,而在使用量呈爆炸式增长的情况下,开发者就会支付更多的费用,从而让他们的前期投入得到了回报。
我之前已经提到过 GPTs;你可能会对此感到困惑,因为这个词可以说是毁誉参半。当然,你也可以对 ChatGPT 说同样的话:时候看来,获得大量消费者的接受有可能让可以说是糟糕的选择变成很好的选择,我可以理解为什么 OpenAI 正在寻求将“GPT”—— generative pre-trained transformer——打造成OpenAI 的聊天机器人品牌。
不管怎么说,阿尔特曼是这么解释 GPTs 的:
GPT 是针对特定目的的ChatGPT 定制版。你可以针对几乎任何事情开发一个GPT,ChatGPT 的定制版,这个GPT会带有指令、有扩展的知识,有行动,然后你可以把它发布出去,供其他人使用。而且因为这些GPT结合了指令、扩展知识与行动,所以对你的帮助可以更大。在许多情况下它们可以更好地工作,并且可以为你提供更好的控制。它们将让你更轻松地完成各种任务,或者享受更多的乐趣,而且你还可以在 ChatGPT 里面直接使用这些GPT。实际上,你只需要通过交谈即可对 GPT 进行编程。你还可以轻松地对行为进行自定义,让它符合你的需求。这使得搭建这些GPT变得非常容易,并且可以为每个人提供代理。
我们将向你展示什么是 GPT、如何使用GPT、如何开发GPT,然后我们将讨论怎么分发和发现GPT。在此之后,对于开发者,我们将向你展示如何将这些类似代理的体验植入到你自己的应用里面。
阿尔特曼的例子包括来自 Code.org 的课程规划 GPT ,来自 Canva 的自然语言视觉设计 GPT。就像阿尔特曼所指出那样,第二个例子看起来也许会很熟悉:Canva 本身就有一个 ChatGPT 插件,阿尔特曼解释说“我们已经把插件发展成 GPT 的自定义操作。”
我发现插件这个概念很有趣,并且是理解大语言模型的功能和限制地一种很有用地手段;我在 《ChatGPT 有了一台计算机》中写道:
这种方法的含义是计算机是确定性的:如果电路 X 开路,则 X 表示的命题为真;如果电路 X 开路,则 X 表示的命题为真; 1 加 1 总是 2;单击浏览器上的“返回”将退出此页面。当然,在单个晶体管和我们可能对计算机执行的任何操作之间存在大量的抽象和大量的逻辑,并且实际上存在无数个错误的地方,但计算机的适当心智模型是:他们完全按照他们被告知的去做(事实上,错误不是计算机犯了错误,而是程序员告诉计算机做错误事情的表现)......
这种方法的内涵在于计算机是确定性的:如果电路 X 是开路的话,则 X 所代表的命题为真; 1加1永远等于2;单击浏览器上的“后退”将退出此页面。当然,从单个晶体管到我们可能对计算机采取的任何操作,这中间存在大量抽象和大量逻辑——实际上可能会出现 bug 的地方其数量近乎无限——但计算机有一个得当的心智模式,那就是它们完全会按照编程指令执行操作(事实上,计算机出现的错误不是计算机犯了错,而是程序员告诉计算机做了错误的事情)……
不过,大语言模型走的是概率性路线,这种做法在很多领域都非常直观,但可能会产生幻觉,而且它们在数学方面非常糟糕;这就是为什么在 OpenAI 推出的插件当中, 来自Wolfram|Alpha 的是最引人注目的一个。斯蒂芬·沃尔夫勒姆(Stephen Wolfram)解释说:
十年来,在思考人工智能时,ChatGPT 使用的那种‘统计方法’,与其实是 Wolfram|Alpha 起点的‘符号方法’之间一直是道不同不相为谋。但是现在由于 ChatGPT 的成功,以及我们在让 Wolfram|Alpha 理解自然语言方面所做的所有工作,终于有机会把它们结合起来,做出一个比各自独立永远也实现不了的强大东西来。
正是在这种结合下,就有了那篇文章的标题:
其效果如此之好这一事实本身就证明了 AI 助理(Assistant AI) 是什么,以及不是什么:它们的计算方式不像我们之前所理解的那样;它们的“思考”和交流方式令人震惊。说实话,换作是我也很难搞定那三个问题——这就是计算机的用途!现在,ChatGPT 有了自己的计算机。
我仍然认为这个概念非常优雅,不过只有一个问题:用户界面很糟糕。你必须去“交易市场”获取一个插件,然后在开始对话之前预先选择该插件,只有这样,经过 ChatGPT 与相关插件提供商协商答案的漫长过程之后,你才能获得可行的结果。
这种新模式在一定程度上缓解了这个问题:现在,你用不着要先选对插件(这会导致聊天重新启动),只需直接找特定的 GPT 即可。换句话说,如果我想创建海报,我不会在 ChatGPT 里面启用 Canva 插件,而只需要转到侧边栏的 Canva GPT 集客。请注意,这其实并没有解决需要选择正确工具的问题;它做到的是让用户在流程更合适的阶段做出更明显的选择,但这可不是小事一桩。我还怀疑 GPT 要比插件快得多,因为它们从一开始就是集成在一起的。最后,独立的 GPT 更适合 OpenAI 试图建立的商店模式。
不过,还有更好的方法:阿尔特曼做了演示。
在介绍上述 GPT 之前,阿尔特曼谈到了 ChatGPT 的改进:
尽管这是一次开发者大会,我们还是忍不住要给 ChatGPT 做出一些改进。 其中一个小改进是,ChatGPT现在将使用 GPT-4 Turbo,这会包含有所有的最新截止的知识,而且我们将继续更新 —— 这一切今天都将全部上线。现在,它可以在需要的时候浏览网页、编写和运行代码、分析数据、生成图像等等,我们已经听到大家的反馈,说模型选择器很烦:从今天开始,这个东西已经不见了。你不必单击下拉菜单了。所有这一切都会协同工作。 ChatGPT 已经知道该用什么以及你什么需要用到它。但这不是我们要讲的主要内容。
你可能想知道为什么我要将本节放在 GPTs 之后,因为按照阿尔特曼的说法,这才是主要内容:因为我认为这项功能增强实际上更重要。正如我刚才所指出那样,GPT 是一个更好的 UI,基于优雅的插件概念,让概率性的大语言模型可以访问确定性的计算机。不过,最好的 UI 是根本就没有 UI,或者更确切地说,只有一个 UI,我的意思是,“通用界面”。
在这种情况下,“浏览”或“图像生成”基本上是插件:在今天之前,它们属于专门功能,你必须显式调用它们;展望未来,不必如此。 ChatGPT 将在文本生成、图像生成以及网页浏览之间无缝切换,不需要用户更改上下文。插件/GPT 的想法要想最终得到实现,其必要条件是相同的功能得到广泛应用:如果我的对话牵涉到数学,ChatGPT 应该知道自己该使用 Wolfram|Alpha,而不需要我添加插件或者去找专门的 GPT。
我可以理解为什么这种功能还没出现:恰当地将功能展示出来,并且训练好模型,让它知道什么时候该调用这些能力,这些是显而易见的技术挑战,也是克莱顿·克里斯藤森(Clayton Christensen)教授关于一体化与模块化理论的教科书示例,当产品不够好的时候采用一体化效果更好;只有当产品超出预期时,才有标准化、模块化的空间。在这一点上,ChatGPT 现在才具备在不选择模式的情况下生成图像的能力:我预计寻找不太明显的工具的能力会相当困难。
事实上,这一整个插件/GPT 的做法最终都有可能会陷入死胡同;在主旨演讲接近尾声时,OpenAI 开发体验主管 Romain Huet 直接在舞台上演示了 ChatGPT 对一台计算机进行编程。当时的场景是给巴黎的一家 Airbnb 分摊费用:
Code Interpreter现在也可以在 API 里面使用了。这样一来,人工智能就可以在文件上面编写和生成代码,甚至生成文件了。我们来看看它的实际效果吧。假设我跟它说:“嘿,这家 Airbnb 会有 4 位朋友入驻,我的房费加上机票费是多少?”
现在发生的事情是,Code Interpreter注意到自己应该写些代码来回答这个查询,所以现在它正在计算呆在巴黎的天数、朋友的数量,它还在幕后进行一些汇率计算,好替我们找到这个问题的答案。这些不属于那种最复杂的数学运算,但我的意思你应该明白:假设你正在开发一个非常复杂的财务应用,需要计算无数的数字、绘制图表,并且如果有任何你可能要用代码来处理的任务的话,那么 Code Interpreter 会工作得很好。
呃,有哪些任务是你不会用代码来处理的呢?说句公道话,Huet 举出得例子是相当简单的数学向任务,而不是对互联网上得每个应用进行大规模重建,但考虑到 ChatGPT 将获得选择正确工具的智慧,再思考一下有哪些问题它会用暴力破解的方式去解决是很有趣的。计算的历史实际上会给后者一个更高的可能性:有很多问题是通过摩尔定律的应用而不是靠巧妙的算法来解决的。
说到2013年,那是我第一次写关于一体化与模块化方面文章的时候,那篇文章的标题叫做《克雷顿·克里斯腾森错在哪儿》。就像标题所示那样,我认为这一理论并不具备普遍性:
克里斯滕森本人在上面摘录的第一句话(2006 年)中阐述了他的理论的主要缺陷:
你还可以在飞机、软件、医疗设备等东西身上一遍遍地看到这一点。
这就是问题所在:消费者不买飞机、软件或医疗设备。但企业买。
克里斯滕森的理论是基于企业而不是消费者所做出的购买决策的例子而得出的。这一点很重要,因为低端颠覆理论假设:
买家是理性的
每一个重要的属性都可以记录和衡量
在对购买者重要的所有属性上,模块化供应商都可以变得“足够好”。
所有这三个假设在消费者市场上都失效了,这最终也是克里斯滕森的理论失效的原因所在。我逐一来讲讲吧:
总结一下这个论点,消费者在乎的东西未必与你基于其效用而赋予的价格一致,他们优先考虑的是易用性,他们关心用户体验的质量,模块化解决方案所固有的缝合问题尤其会给他们造成困扰。这意味着一体化的解决方案获胜,因为没有什么东西是“足够好”的;正如我在亚马逊的背景下指出那样,神圣的不满是颠覆的解药:
不过,贝索斯的信揭示了专注客户的另一个优势:这会让这件事不可能做过头。我五年前写那篇文章时,我正在思考关注用户体验提供的机会就好像是一条渐近线:你可以越来越接近于终极的用户体验,但永远也没法实现那种体验:
但事实上,消费者的期望并不是一成不变的:贝索斯的说法令人难忘,消费者的期望是“神圣的不满”。今天的惊艳明天会变成筹码,也许令人惊讶的是,这创造了巨大的商机:如果你的公司致力于为消费者提供尽可能最佳的体验,那么你的公司将永远也无法实现这个目标。
就亚马逊而言,这个无法实现且不断变化的目标已深深植根于公司的文化之中,再加上这家公司展示出利用现有业务的利润开展新业务的能力,有点像永动机一样。
我看不出这两篇文章对 ChatGPT 不适用的理由:虽然我可能会认为幻觉在某种意义上属于一种功能而不是错误,但事实是,尽管事实上它在真相方面存在有据可查的缺陷,很多人还是利用 ChatGPT 来获取信息,所以这个缺陷是可以接受的,因为对于客户来说,为了易用性而牺牲准确性是值得的。或者再看看插件:原先实现的概念已经被放弃,因为用户界面的复杂性比任何可能的实用程序的危害性还要大。这种模式似乎会继续下去:当然,客户会说他们想要准确性和第三方工具,但他们的行动将继续证明便利性和易用性才是最重要的。
这会产生两个影响。首先,虽然这可能是 OpenAI 的第一次开发者大会,但我仍然不相信 OpenAI 会成为一家真正以开发者为中心的公司。我认为这是阿尔特曼的计划,但现实以 ChatGPT 介入的形式出现:ChatGPT 是自 iPhone 以来最重要的消费者产品,让 OpenAI 意外成为了消费者科技公司。推而广之,这意味着一体化仍继续比模块化更重要,这对于微软的计算栈来说很好,但对开发者来说可能就不那么令人兴奋了。
其次,使用 ChatGPT 时仍然存在很大的摩擦;主要来自人工智能、硬件以及虚拟现实:
人工智能确实是一种崭新的、就有革命性的东西,这不仅仅只是一种家庭作业的辅助工具,但我不觉得现在的这种界面是合适的。跟 ChatGPT 交谈比打字强,但我还是得启动应用并设置好模式;视觉能力令人惊艳,但需要表达更多的意图才能调用,而且存在的摩擦不小。我能看到这样一个场景:Meta 的人工智能在技术上不如 OpenAI,但更有用,这纯粹是因为它的形态因子更好。
在传出了OpenAI要与乔纳森·艾维(Jony Ive)合作开发硬件的新闻报道后,我得出了以下结论:
显然,在推出潜在的硬件产品之前还要经历很多步骤,包括确实同意要开发硬件这一步。当然,苹果于谷歌已经制造了每个人都可以携带的设备,尤其是后者在自己的人工智能能力上已经投入了大量资金;把注押在硬件上,去赢得硬件机会,是争夺市场最安全的赌注。不过,这或许并不是 OpenAI 或 Meta 放弃努力的理由:跟谷歌与苹果展开硬件大战会很困难,但如果人工智能能力的完全实现要依赖于完全消除该过程当中的人为摩擦的话,“只是个app”的情况可能会更糟。
这就是 ChatGPT 正在努力实现一个通用界面的用意所在:它还需要普遍接入,这对于任何“只是一个app”的公司来说始终是一个挑战。是的,正如我所指出那样,由于苹果与谷歌的主导地位,这种可能性似乎很小,但我认为,这场转变范式的主旨演讲才刚刚开始它的翻盘作战,这是一个小概率的机会。
译者:boxi。