作者|LiYuan、宛辰
编辑|靖宇
对于 AI 行业从业者来说,刚刚可能是一夜未眠。
北京时间 11 月 7 日凌晨,美国人工智能公司 OpenAI 的开发者大会正式开启,创始人 Sam Altman 在台上和同事,只用 45 分钟时间,就「轰」出了团队最新的成果 GPT-4 Turbo,后者不仅更快、有更长的上下文、而且更好的控制。
同时,OpenAI 下调 API 的价格近 3 倍,降到了 1000 输入/美分,让在场开发者欢呼不已。
当然,更重要的是,OpenAI 推出了「GPTs」——让人们能用自然语言构建定制化 GPT,然后,你猜到了——可以把 GPT 上传到即将发布的「GPT Store」!
如果说 GPT-4 Turbo 是更好用的「iPhone」,GPT Store 则可能是让 OpenAI成为「苹果」一样的巨头的重要一步。
当竞争对手们依然在「AI 炼丹」时,OpenAI 已经开始构建起一个看起来相当宏伟的生态了。
GPT-4 Turbo,更快,更省钱
发布会一开始,Sam Altman 就宣布了 GPT-4 的一次大升级,推出了 GPT-4 Turbo,同步在 ChatGPT 和 API 版本推出。
Sam Altman 表示团队一直在征求开发者的建议,对开发者关注的问题做了六大升级,分别是更长的上下文长度、更强的控制、模型的知识升级、多模态、模型微调定制和更高的速率限制。
其中前四条主要关于新模型的性能的提升,而后两点则主要针对企业开发者的痛点。在提升性能的同时,OpenAI 还宣布了 API 价格的下调,可谓「加量不加价」了。
Sam Altman 公布 GPT 的六大升级|OpenAI
六大升级中,第一,就是上下文长度。
OpenAI 原本提供的最长的上下文长度为 32k,而此次,GPT-4 Turbo 直接将上下文长度提升至 128k,一举超过了竞争对手 Anthropic 的 100k 上下文长度。
128k 的上下文大概是什么概念?大概约等于 300 页标准大小的书所涵盖的文字量。除了能够容纳更长上下文外,Sam 还表示,新模型还能够在更长的上下文中,保持更连贯和准确。
第二,是为开发者提供了几项更强的控制手段,以更好地进行 API和函数调用。
首先,新模型提供了一个 JSON Mode,可以保证模型以特定 JSON 方式提供回答,调用 API 时也更加方便。
另外,新模型还允许同时调用多个函数,同时引入了 seed parameter,在需要的时候,可以确保模型能够返回固定输出。接下来几周,模型还将增加新功能,让开发者能看到 log probs。
第三,则是模型内部和外部知识库的升级。
ChatGPT 横空出世大概一年后,GPT 的知识库终于更新到了 2023 年 4 月。Sam Altman 承诺未来还将继续更新其知识库,不使其落伍。「对于 GPT 的知识停留在 2021 年,我们和你们一样,甚至比你们更恼火。」Sam Altman 表示。
GPT 内部知识库终于升级到了 2023 年 4 月|OpenAI
除了内部知识库的升级,GPT-4 Turbo 也升级了外部知识库的更新方式,现在可以上传外部数据库或文件,来为 GPT-4 Turbo 提供外部知识库的支持。
第四,或许是最不让人意外的,多模态。
新模型支持了 OpenAI 的视觉模型 DALL·E 3,还支持了新的文本到语音模型——开发者可以从六种预设声音中选择所需的声音。
多模态成为 GPT 的内置功能|OpenAI
GPT-4 Turbo 现在可以以图生图了。同时,在图像问题上,目前 OpenAI 推出了防止滥用的安全系统。OpenAI 还表示,它将为所有客户提供牵涉到的版权问题的法律费用。
在语音系统中,OpenAI 表示,目前的语音模型远超市场上的同类,并宣布了开源语音识别模型 Whisper V3。
第五,模型微调与定制。
8 月,OpenAI 曾经发布过 GPT-3.5 Turbo 的微调服务。当时,有早期测试表明,经过微调的 GPT-3.5 Turbo 版本在某些任务中甚至可以超越 GPT-4,不过定价相对较高。
而此次,Sam 宣布 GPT-3.5 Turbo 16k 的版本目前也可以进行微调的定制了,且价格将比前一代更低。GPT-4 的微调定制也在申请中了。
同时,OpenAI 也开始接受单个企业的模型定制了。「包括修改模型训练过程的每一步,进行额外的特定领域的预训练,针对特定领域的后训练等等。」Sam 表示。同时他表示,OpenAI 没有办法做很多这样的模型定制,而且价格不会便宜。
第六,也是最后一点,是更高的速率限制。
GPT-4 用户,发布会后马上可以享受到每分钟的速率限制翻倍的体验。同时,如果不够满意,还可以进一步通过 API 账户,申请进一步提升速率限制。
六大升级以外,是 API 体系的全线降价。
此次新发布的 GPT-4 Turbo,输入方面比 GPT-4 降价 3 倍,而输出方面降价 2 倍,OpenAI 表示,总体使用上降价大概 2.75 倍。
新模型的价格是每千输入 token 1 美分,而每千输出 token 3 美分。降价的 API 迎来了现场开发者的欢呼。
Sam 还表示,在优先解决价格之后,下一个重点解决的问题将是速度问题,很快,开发者们就会发现 GPT-4 Turbo 将变快很多。
GPT Store 来了!
早在 5 月,OpenAI 就开放了插件系统,首批上线了 70 个大模型相关的应用,领域包括猜词、翻译、查找股票数据等等。
GPT Store 风格都非常「App Store」|OpenAI
当时,该功能被寄予厚望,不少媒体将其类比于苹果的 App Store 时刻,认为它将改变大模型应用的生态。不过虽然后期插件不断增加,但插件系统却远远没有达到苹果应用商店的影响力。
而此次发布会上,OpenAI 则重新梳理了其应用商店的体系,并将其扩大到了一个全新的范畴——人人都能通过自然语言创建基于自己的知识库的 AIAgent,加入 OpenAI 的应用商店,并获得分成。
OpenAI 此次发布的应用,不再称为插件,而选择了一个相对比较奇怪的名字,GPT。而整体的应用商店,名字叫做 GPT Store,将在本月后期正式推出。
按照 Sam Altman 的说法,每一个 GPT 像是 ChatGPT 的一个为了特殊目的而做出的定制版本。
OpenAI 的工作人员尝试让 ChatGPT 管理自己的生活|OpenAI
为了突出新的 GPT 应用,ChatGPT 整个页面将有小幅度的调整。左上角除了 ChatGPT,下面的应用,就是此次推出的 GPT 应用。
在演示中,可以看到,较为复杂的插件——比如曾经在 OpenAI 上线插件系统时第一批进入插件系统的 Zapier,仍然存在于目前的应用商店中,而且仍然可能是未来应用商店里很重要的一批应用。
演示中,OpenAI 的 Jessica Shay,就利用了 Zapier 链接了自己的日历和手机短信,通过与 Zapier 这个应用聊天的方式,直接安排了自己的日程,并通知了同事。
不过,Zapier 的功能虽然强大,这样的应用并不是此次发布的重点。据 Glassdoor 数据显示,Zapier 公司拥有 500-1000 名员工,而财富网站报道,Zapier 估值已达 50 亿美金。指望这样的应用来填充 OpenAI 的羽翼未丰的应用商店,使其成为一个丰富的生态显然不太现实。
因此,此次发布中,OpenAI 推出一个重磅发布:让不懂代码的人也能轻松定义一个 GPT。
Sam Altman 为此进行了现场展示。
「在 YC 工作过很多年,我总是遇到开发者向我咨询商业意见。」Sam Altman 讲到,「我一直想,如果有一天有个机器人能帮我回答这些问题就好了。」
接着,Sam Altman 打开了 GPT Builder,先打上一段对这个 GPT 的定义,类似于帮助初创公司的创始人思考他们的业务创意并获得建议,接着,在对话中,GPT Builder 自己生成了这个 GPT 的名字、图标,并通过与 Sam 对话的形式,询问 Sam 是否要对对生成的名字和图标等进行调整。
Sam Altman 正在创建一个「创业导师 GPT」|OpenAI
接下来,GPT Builder 主动向他询问这个应用该如何与用户交互,Sam 表示可以从我的过往演讲中选择合适且有建设性的回答,然后上传了一段自己过往的演讲。
即使加上讲解,整个应用也在三分钟内就完成了。访问这个 GPT 的人,会收到 GPT 自动生成的对话开头,可以与这个 GPT 对话咨询创业相关的内容,而得到的,将是一个类似于 Sam Altman 本人的回答。
Sam 表示,创建者还可以进一步为 GPT 增加 action(动作)。
创建一个这样的 GPT,本质上,用户能够定制的功能其实并不多:指令(预设的 prompt),外设的知识库和动作。但是,能把三者丝滑地结合起来,让一个不懂代码的人也能更简单地创建应用,确实是此次 Open AI的创举。
GPT 发布后,应用可以选择私有,专属企业拥有和公开所有三种方式。而 Open AI 表示,将为受欢迎的应用提供利润分享。
很明显,OpenAI 在这里的发布,并没有希望普通用户能够通过自然语言创建出多么复杂的应用,其中的想象空间,更重要的在于个人和企业能够将自己的知识库上传到 OpenAI,一键构建专属应用。
比如作为一个拥有货运价格表的代理,可以将文件上传到 OpenAI 后,一键部署出自己的询价助理,这样简洁丝滑的应用部署,在之前还并不存在。而如果发布最终能够得到用户认可的话,类似的应用也将能够填充 OpenAI 的应用商店,使其成为各种信息的宝库。
零代码创建 AI Agent
如果你觉得上述的 0 代码的 GPT 很酷,此次 OpenAI 也推出了让开发者更容易使用 OpenAI API 的开发方式——Assistants API。
Sam Altman 表示,市面上基于 API 构建 agent 的体验很棒。比如,Shopify 的 Sidekick 可以让用户在平台上采取行动,Discord 的 Clyde 可以让管理员帮忙创建自定义人物,Snap 的 My AI 是一个自定义聊天机器人,可以添加到群聊中并提出建议。
但问题是,这些 agent 很难建立。有时需要几个月的时间,由数十名工程师组成的团队,处理很多事情才能使这种定制助手体验。这些事情包括状态管理(state management)、提示和上下文管理(prompt and context management)、扩展功能(extend capabilities)和检索(retrievel)。
在 OpenAI 开发者大会上,这些事情被 API 化——OpenAI 推出 Assistants API,让开发人员在他们的应用程序中构建「助手」。
使用 Assistants API,OpenAI 客户可以构建一个具有特定指令、利用外部知识并可以调用 OpenAI生成式 AI模型和工具来执行任务的「助手」。像这样的案例范围包含,从基于自然语言的数据分析应用程序到编码助手,甚至是人工智能驱动的假期规划器。
Assistants API封装的能力包括:
Assistants API 处于测试阶段,从今天开始可供所有开发人员使用。开发者可以前往 Assistants Playground 来尝试 Assistants API 测试版,而无需编写任何代码。
Assistants API 被 OpenAI 视为帮助开发者在其应用程序中构建「类 agent 体验」的第一步。有了 Assistants API,构建 agent 应用将变得更容易。OpenAI 表示,随着时间的推移,将会持续提高它们的能力。并且,未来计划允许客户提供自己的 copilot 工具,以补充其平台上的 Code Interpreter、检索组件和函数调用。
OpenAI 开发者大会上的产品升级,再次告诉人们,距离每个人都能有一个甚至多个专属私人助理、使用自然语言就能开发软件、还能像浏览应用一样,付费/免费购买流行的私人助理,这样的一个未来,正在加速向人们走来。
从 GPT-4 到 GPT-4 Turbo 和 GPT Store,OpenAI只用了半年多一点的时间。而在 6 个月之内,全球的科技和 AI 行业,已经是天上人间。
Sam Altman 总结发布会亮点|OpenAI
当多模态、长文本输入、更便宜、个性化……这些旨在和 OpenAI 大模型错位竞争的特点,都被 OpenAI 抢先拿来自我革命;当 OpenAI 的产品在 B 端和 C 端都体现出强大的吸引力、并且还将利用 GPT Store 率先笼络住全球AI开发者时,不知道全球的 AI 对手们的心情如何。
但 OpenAI 的技术进步是令人兴奋的,而团队所采用的商业策略,又有着超出一般创业公司的成熟——我们目睹着一个行业的潮起,也可能正在见证一个巨头的诞生。
头图来源:OpenAI