ChatGPT王炸升级！更强版GPT-4上线，能赚钱的GPT商店也要来了

作者：腾讯科技发布时间：2023-11-07

ChatGPT GPT-4 腾讯 OpenAI

ChatGPT王炸升级！更强版GPT-4上线，能赚钱的GPT商店也要来了

文 | 腾讯科技郝博阳

在OpenAI开发者日前夕，WiFi公司Meter的天使投资者兼产品负责人Nikunj Kothari在X上写道：“自最初的iPhone时代以来，从未见过这么多开发者兴奋地谈论即将推出的产品。”

毫无疑问，这场OpenAI第一次的开发者大会受关注的程度直指科技春晚苹果秋季发布会，说是AI界春晚毫不为过。

大会刚开始，Sam Altman就列出了一串数字，表明OpenAI目前拥有200多万开发人员，包括92%以上的财富500强公司用户，以及一亿周活用户。这些官方数字直接证伪了自去年11月发布以来，ChatGPT的热度正在逐渐消退的相关报道。

在秀完肌肉后，Sam Altman即刻端上了一道足以改变行业的大餐，以及一封争夺AI应用分发权的战书。

头盘：GPT4 Turbo

开场就是重头戏。Sam Altman在简单讲述完GPT版本更新历史后，就放出了他们最强大模型GPT-4 的Turbo升级版本。他称其“更强大，也更便宜”。而且从今天开始，纯文本的模型可以通过API预览，OpenAI表示计划在“未来几周”内全面提供包括多模态版本的GPT4-Turbo。

GPT4-Turbo的“更强大”体现在它的六大升级上。包扩上下文长度提升，模型控制，更好的知识，新的多模态能力，模型自定义能力及更低的价格，更高的使用上限。

对于一般用户体验来讲，上下文长度的增加，更好的知识和新的多模态能力是最核心的体验改善。

1）上下文长度升级：这在过往是GPT4的一个软肋。它会决定与模型对话过程中能接收和记住的文本长度。如果上下文长度限制较小，面对比较长的文本或长期的对话，模型就会经常“忘记”最近对话的内容，并开始偏离主题。GPT4基础版本仅提供了8k token（字符）的上下文记忆能力，最近提供的拓展能力也仅仅能达到32k token，相比于主要竞品Anthropic旗下 Claude 2 提供100k token的能力差距明显。这使得GPT4在做文章总结等需要长文本输入的操作时常常力不从心。但这次GPT-4 Turbo直接提供了一个128k token的上下文能力扩充，是GPT-4扩容版本的4倍，一举提供了已商用大模型中最大的上下文容量，反超Claude 2。更形象的形容一下，128万个token约10万字或300页书，可供参考的长度约为《呼啸山庄》、《格列佛游记》和《哈利波特与阿兹卡班的囚徒》的长度。

2）更好的知识更新：GPT4-Turbo终于把知识库更新到了2023年4月，不再让我们停留在2年前的过去了。最初版本的GPT4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放，GPT4也可以获得最新发生的事件知识。但相较于融汇在模型训练里的知识而言，这类附加信息因为调用插件耗时久，缺乏内生相关知识的原因，效果并不理想。而现在，至少你可以获得截止到今年四月前的新信息，获取到很准确的答案了。

3）新的多模态能力：主要是指部分用户已经体验到的Dalle3文生图功能，文本到语音（TTS）即最近被各路展示的语音对话功能，以及整合了这些的GPT4Turbo with Vison多模态功能，可以识别图片和语音输入并产出对应的生成内容。这些都不是全新的功能，但他们的API在活动当日就全部开放给了开发者，这意味着后续会有更多的应用，网站能把这些功能整合进日常运作中。

针对这些多模态功能的API使用，其定价也与纯文字的Token定价不同，目前Vison的定价取决于输入图像的大小。例如，将1080×1080像素的图像传递给GPT-4 Turbo需要0.00765美元。 Dalle3根据不同格式和质量选项，生成每张图像的起价为0.04美元。而TTS能力的接入价格从每输入1000个字符0.015美元起。

在宣布多模态API开放的同时，Sam也提到了Whisper V3将会在近日发布，GPT家族的语音识别能力又可以大幅提升。

对于开发者和程序员们而言，另外两个升级更加重要。

4）更高的控制性：为实现对模型产出内容更高的控制性，GPT Turbo提供了三个方面的升级。

一是函数调用更新，在技术文档中，OpenAI解释称，函数调用允许用户向模型描述应用程序或外部API的函数，并让模型智能地选择输出包含参数的JSON对象来调用这些函数，以达到使用外部程序能力的作用。而且过往的函数调用，一次交互只能调用一个函数，即一个外部能力。但在GPT4 -Turbo中，一条指令可以平行调用多个操作，使得与外部应用结合的复杂功能实现变得更容易。

二是改进了指令跟随，现在GPT4 Turbo能更好的理解限制性指令了。在需要仔细遵循指令的任务上，例如生成特定格式（例如，“始终以XML响应”）表现更佳。它甚至还提供新的“JSON模式”，它确保模型能生成语法正确的JSON对象，不正确的语法则直接被否定掉不执行。这在传输数据的网络应用程序中很有用。

三是可再现输出，过往大语言模型经常出现的一个问题是同一个问题的答案，问上几次可能都会结果不同。为了保持模型的一致性，GPT4-Turbo可以通过种子参数让大模型的回应变得统一且可重复。

这一部分的升级实际上为后续GPT-4 Turbo的自定义可能和AI 智能体化（ AI Agent）提供了坚实的基础。只有在调用外部工具变得更简单，更稳定的前提下，AI才能更好地进行使用多工具完成复杂任务的工作。而这正是当下智能体所需要的。

5）模型自定义能力：在今年8月22日，OpenAI刚刚上线可微调的GPT3.5 Turbo版本，两个月后GPT4的可微调版本Turbo也来了，这意味着开发者终于可以在GPT4的基础上进行定制化调试训练了。但这个工作似乎并不容易，OpenAI在博客文章中写道：“初步结果表明，与GPT-3.5微调实现的实质性收益相比，GPT-4微调需要更多的工作来实现对基本模型的有意义的改进。”

针对这个困难，OpenAI提供了一个Plus版本的微调，即自定义模型。针对于那些需要比微调更多定制的组织（特别适用于拥有超大专有数据集的领域——至少有数十亿个token），OpenAI给出内部工程师协助训练模型，走完全程，从进行额外的特定领域的预训练，到运行为特定领域量身定制的自定义RL后训练过程。当然，OpenAI表示这个机会不会太多，而且非常贵。

6）加量降价：最后一个大升级就是大降价。OpenAI表示，GPT-4 Turbo对开发人员来说运行成本更低。与GPT-4上的0.03美元相比，每1000个代币（LLM读取的基本文本或代码单位）的输入成本仅为0.01美元。每个输出成本为每1000个令牌0.03美元。总体而言，新版GPT-4-Tubo比原始版本便宜2.75倍。而开放给API的token吞吐量也提升了一整倍。

Sam Altman在开发者的欢呼声之后表示，不光价格降了，同时GPT4 Turbo的速度也会大幅提升。今天一过，AI开发者集体降本增效了。

英伟达工程师Jim Fan对此表示，OpenAI规模效应带来的价格优势太可怕了。

沙拉：纳德拉上台，巩固联盟关系

上完了头盘硬菜，Sam Altman邀请微软CEO纳德拉上场站台。一番简单寒暄过后，Sam询问纳德拉：微软现在如何看待与OpenAI的合作关系？纳德拉笑了大概3秒钟才回应：我很爱你们，能和你们合作感觉很梦幻。但讲到具体的合作时候，他更强调微软当前的首要任务是要让Azure更好的支持“包括你们模型在内”的大语言模型的训练和基础设施建设，让开发者能更好的使用到AI带来的技术革新。

（3秒钟的笑，纳德拉的出乎意料）

针对Sam关于AI的未来会如何发展的第二个问题，纳德拉依然是返躬自省。他强调微软自认为是个平台公司，软件开发公司和合作商公司，后续的目标就是要提升算力和服务，支持自己和其他开发者利用大模型赋能机构和个人。不愧是公关大师，一套话术对两个问题。

整个对话过程略显尴尬，本来是为了强调合作关系的对话沟通却始终弥漫着一种距离感。而且整段对话的基调都是OpenAI大步前冲，微软自甘做个支持角色，多少有点适得其反。

正餐：GPTs，助手API及应用商店

如果说GPT4 Turbo的更新是个硬菜，它也就是个较硬的前菜。因为它的很多升级都是为GPTs这道主菜做引子。这才是这场发布会的主角。

GPTs

GPTs不是GPT的任何一个版本，而是属于你的定制的GPT，一个能实现各种具体目的的智能体。

OpenAI提供了一个构建GPTs的工具，GPT Builder，它包含三个功能，指令、扩展知识和行动。有了这几个功能，能完成任务而非仅仅对话的智能体就可以轻松被构建出来。而且通过自然语言就可以完成全流程。

在示范如何构建一个属于Sam Altman个人的定制GPT，帮助他为别人提供创业指导的过程中，这三个功能都被展现得很明确。

指令部分即一步步下达指令构建GPTs。你说个GPT的应用目标，GPT Builder会帮你生成GPT名字，再生成logo（profile picture）。之后GPT Builder会通过询问具体限制，相关资料，逐步完善指令流程，最终完成应用构建。你根本不用规划流程，它会用问题引导你。这一切都可以用你的母语完成。

如果你对引导的结果还不满意，还可以在设置中直接进行调节。

通过“知识扩展”部分，用户可以直接上传自定义数据，如DevDay事件时间表。

用户还可以选择是否调用模型模型能力，使GPT能访问网页浏览、DALL-E和OpenAI的代码解释器工具，用于编写和执行软件。

（在创建GPTs的工具GPT Builder页面中，依次从上到下展示的功能是指令，扩展知识及模型能力开关及行动功能。）

最后通过另一个名为Actions的功能，OpenAI允许GPTs调用函数，连接到外部服务，即访问电子邮件、数据库等数据，以完成复杂的工作组合。比如在后面的演示中出现的，回答用户关于旅游地点信息的询问时，调用谷歌地图或机票信息。

通过已有的几个GPTs，Sam还演示了GPTs具体定制化后会有什么不同的能力。

如Code.org的编程课教师，就可以多用比喻的手法让学习者更好地理解抽象的编程逻辑。

CanavaGPT可以直接连接到外部的Canava（一个海报生成网站），来帮助你根据需求生成相关网站。

你所建立或订阅的所有GPTs都会在GPT主界面的左边栏中与ChatGPT并列存在，可见OpenAI对此功能所给予的重视及优先级。

当然这优先级是完全合理的。有着最新的模型接口，且将开发定制化智能体变得如此简洁的GPTs，对于如AUtoGPT，Langchain之类过往提供基于AI的开发App的软件平台来讲，就是降维打击。而满足各种调用功能的小型插件更是完全没有了生存价值。对此，业内早有评价，称OpenAI每次发布产品升级，都会直接干掉一大批初创公司。

（来自投资人的痛诉：插件已死）

这项GPT创建功能将在晚些提供给付费的ChatGPT Plus用户和OpenAI企业客户，他们可以为员工制作仅限内部的GPTs。

助手API

针对有着更复杂需求的开发者或公司，OpenAI还提供了一个GPT Builder的升级版本，即助手API。

相较于普通GPT，助理API有更长的上下文能力，还可以利用检索组件，补充更多外部知识，并在内部进行检索，连建库都不需要，上传就行。它还支持更强大的函数调用，使助手能够调用开发人员定义的编程函数，并将响应包含在消息中。

应用商店

那我们如何应用这些已建好的GPT？OpenAI直接给出了一个GPT商店，它是这些GPT的分发平台。与之前的插件商店不同，GPT应用商店的意义更为重大。

从这个商店的界面看，用户可以直接订阅各种GPTs。因此可以把它理解成一个承载着诸多AI小程序的集合体。而如果它成功地构建起了一套应用生态的话，OpenAI也会变成一个真正的应用平台，一个AI时代的产品分发入口。而它的封闭性（里面只有基于OpenAI的模型开发的应用），也让它多少有了些AI时代App Store的垄断味道。

但这个地位并非只有OpenAI觊觎。各个大厂，包括微软和苹果都有自己的基于软件的应用市场。想在这里面再建个独立的小市场，垄断AI的应用红利，这很难不在后面引发和现在应用分发巨鳄们的深度冲突。

为了更快地达到这一目标，OpenAI也为GPTs应用开发者设定了完整的分成逻辑。Sam Altman表示，“本月晚些时候，我们将推出GPT商店，以经过验证的建设者的创作为特色。一旦进入商店，GPT就会变得可搜索，并可能在排行榜上攀升。我们还将重点关注我们在生产力、教育和“只是为了好玩”等类别中遇到的最有用、最令人愉快的GPT。在接下来的几个月里，你还可以根据有多少人使用你的GPT来赚钱。”

虽然这场AI春晚震撼到了很多人，但还是有一个人不太为之所动。马斯克在看完发布会后发了条推继续支持自家模型Grok，然后就去打暗黑四了。