当前位置:首页|资讯|OpenAI|人工智能

OpenAI的iOS时刻,看好安迪比尔飞轮转动(附下载)

作者:小猫超可爱发布时间:2023-12-02

原标题:OpenAI的iOS时刻,看好安迪比尔飞轮转动(附下载)

今天分享的是计算机系列深度研究报告:《OpenAI的iOS时刻,看好安迪比尔飞轮转动》。

(报告出品方:天风证券)

报告共计:18页

海量/完整电子版/报告下载方式:公众号《人工智能学派》

1.OpenAl 第一届开发者大会带了新的全能大模型

1.1.更长的上下文、新的文生图大模型,GPT 步全能

2023 年11月6日,OpenAl 召开第一届开发者大会,发布会展示了众多新功能和改进,包括 GPT-4 Turbo 的入、新的 Assistant API 以及平台在多模态能力上的扩展内容。

GPT-4 Turbo 是对原始 GPT-4 模型的增强,不仅功能强大,而且成本更低。该模型具有更长的上下文与更先进的知识数据,支持 128k 的上下文窗口,能够在单次输入提示后处理相当于 300 多页文本的内容;GPT-4 turbo 拥有截止到 2023 年 4 月的世界知识数据(GPT-4为 2021 年9月)。同时,性能优化的 GPT-4 Turbo 较 GPT-4 输入 tokens 价格降低了 66.67%,输出 tokens 价格降低了 50%。

GPT-4 Turbo 支持新推出的 JSON 式,确保模型能以有效的 JSON 格式回应,通过新的 API 参数“response format”,模型能够限制其输出内容以生成语法正确的JSON 格式对象。对于开发者来说,在“对话补全”API 中生成函数调用之外的JSON 格式数据结构JSON 模式是非常有用的。

GPT-4 Turbo 函数调用功能的提升。它允许用户向模型描述应用(APP)的函数或外部API 中的特定函数,并使模型智能地选择输出包括调用这些函数参数的JSON 对象,目前用户可以在单个消息中请求执行多项函数操作,例如“打开车窗并关闭空调”,这种操作以前需要与模型进行多次交互。此外,GPT-4 Turbo 在函数调用的准确性也得到了提高现在会更容易地返回正确的函数参数。

GPT-4 Turbo 具有更好的指令跟随功能。GPT-4 Turbo 在执行需要精确遵循特定指令的任务上表现更佳。例如,在被要求以特定格式(XML)回复时,能更准确地遵守格式要求。

新“seed”参数对模型行为提供了更高程度的控制。新“seed”参数通过在大多数情况下返回一致的完成度,允许 GPT-4 turbo 生成可重现的输出内容。此测试功能对于模型精确重现请求的场景(如调试、编写更全面的单元测试)以及模型行为更高程度的控制非常有用。OpenAI 团队一直在运用此功能来进行公司内部的单元测试,并发现它非常有价值。此外,在未来几周 OpenAl将推出一个功能,将返回 GPT-4 Turbo 和 GPT-3.5 Turbo 在末来几周生成最有可能输出 Tokens 的对数概率,这对于搜索体验中构建自动化完成等功能非常有用。

伴随 GPT-4 的更新,GPT-3.5 也得到了升级,新版 GPT-3.5 Turbo 具有更长的上下文和更强的指令跟随功能。拥有默认支持 16K 的上下文窗口,支持改进的指令跟随、JSON 模式和平行函数调用。新版 GPT-3.5 Turbo 在公司内部评估显示在生成JSON、XML、YAML等格式跟随任务方面,性能提高了 38%。开发者可以通过调用 API 中的 gpt-3.5-turbo1106 来访问新模型。

1.2.引入多模态能力,视觉理解与生成

本次大会引入了功能性强大的多模态 API。OpenAI 开发者大会上同时推出 DALL·E 3、GPT-4 Turbo 视觉、文字转语音 (TTS)模型的新模态 API。

开发者目前可以将文生图多模态模型 DALL·E 3 集成到他们的应用程序和产品中,通过使用 OpenAl 的 Images API 中指定dall-e-3’作为模型。例如 Snap, Coca-Cola 和Shutterstock 等公司已经使用 DALL·E 3 来为客户和运营活动进行程序化地生成图像与设计与旧版本 DALL·E 3 类似,API 包含内置的内容审核功能来保护开发者开发的应用程序以免受滥用。其 API 提供不同的格式和质量选项,价格从$0.04/张起。

GPT-4 Turbo 视觉具有强大的处理和分析图像数据的能力。它可以在 API 中接受以图像为输入,使其能够实现如生成图像标题、详细分析实际图像、阅读带有图表的文档等应用场景。比如,BeMyEyes 运用这个技术帮助盲人或视力低下的人完成日常任务:识别产 品或在商店内导航。此外,开发者可以通过在 API 中使用‘gpt-4-vision-preview’来访问 GPT-4 Turbo 视觉功能。

新版文字转语音模型(TTS)具有极其自然的音质。开发者可以通过文本转语音 API 生成 接近人类的语音。 OpenAI 的新 TTS 模型提供了六种预设声音选择,以及两种模型版本: ‘tts-1’和‘tts-1-hd’。’tts’是针对实时应用场景进行了优化,而‘tts-1-hd’对质 量进行了优化。其价格从$0.015 起(每 1000 个字符)。

1.3.Assistant API 来临一为开发者打造代理体验

OpenAI 新推出 Assistant APl,是一个旨在为开发者在应用程序中构建类似代理体验、具有特定的指令、运用额外的知识和调用模型和工具来执行任务的 API。

Assistant API 以灵活的设计方式,用例范围包括自然语言数据分析应用,编程助手,AI驱动的度假计划工具,声控 Dj、智能视觉画布等。其关键的改变在于该 API 具有持久和无限长的线程(Thread)。它提供了如代码解释器(Code Interpreter)、检索(Retrieval) 以及函数调用(Function Calling)功能,可以承担以前用户必须自己完成的繁重工作,并能构建高质量的 AI 应用程序。

Assistant API 与应用程序结合打造更丰富的互动体验。函数调用使得Assistant 能够调用开发者定义的函数,并将响应结果整合到它们的信息中。在 OpenAl 开发者大会中,用户向 Assistant 提问在巴黎十大最值得做的事情,该功能随后列出十大最值得做的事并同时将其中的旅行景点在地图进行了实时的标记。这种整合使得自然语言界面能够与应用程序的组件和功能进行流畅的交互,它真正展示了 AI 与用户界面构建的和谐关系,其中Assistant 实际上在执行操作。

检索功能通过利用模型外的知识(如专有领域数据、产品信息或用户提供的文档来增强Assistant(助手)的能力。因此用户无需计算和存储文档的嵌入,也无需实施分块和搜 索算法。Assistant API 会根据用户在 ChatGPT 中构建知识检索的经验,优化检索技术。 在 OpenAI 开发者大会中,一张电子机票的 PDF 文件只需将它放到结合 Assistant API 的 旅行应用界面上,通过检索功能,便可获取机票上的关键信息。

Assistant API 中的代码解释器能够在沙盒执行环境中编写和执行 Python 代码,生成图标和图形,处理具有多样数据和格式的文件。它允许 Assistant 迭代运行代码来解决复杂的编程和数学问题等。在 OpenAI 开发者大会中,代码解释器协助用户计算旅行费用份额 (包括计算旅行各类费用、旅行人数、汇率等)。此外,用户可以前往 Assistants Playground 在无需任何代码的情况下使用 Assistant API 测试版。

1.4.新模型价格快速下降,应用端成本迅速降低

新推出的 GPT 模型价格相比旧模型下降显。GPT-4 Turbo 输入 Tokens 较 GPT-4 8K 价格低了 3 倍,为 S0.01(价格以每 1000Tokens 为单位); 输出价格为为S0.03,相比 GPT-4 8K低2倍。GPT-3.5 Turbo 输入 Tokens 价格为S0.001,相比 16k 旧模型价格便宜 3x。输出价格低 2 倍,为$0.002; 开发者之前使用 GPT-3.5 Turbo 4k 受益获得 33%的降价,为$0.001。这些较低的价格仅适合于目前推出的新 GPT-3.5 Turbo。微调后的 GPT-3.5 4K模型的输入 Tokens 价格降低了 4 倍,至$0.003,输出 Tokens 价格较旧模型降低了 2.7 倍至$0.006。新 GPT-3.5 Turbo 微调模型 16 与其4K 微调模型价格相同。这些新价格同样也适用于微调的 GPT-3.5-turbo-0613 模型。

2. GPTs+GPT Store,极简应用生成工具与流量入口为 GPT 应用生态奠定坚实基础

2.1. GPTs 带来了及简单的应用构建体验

GPTs 的推出更广泛地适应个人和专业需求。GPTs 帮助任何人都可以创建的定制版ChatGPT,使其在日常生活中、特定任务、工作或家庭中更有帮助,然后与他人分享这个创造。例如,GPTs 可以帮助用户学习任何棋盘游戏的规则、帮助孩子学习数学或设计贴纸。

GPT 模型创建和定制变得更加简单。用户创建自己的 GPT 无需任何编程技能,可以为自己制作,仅供公司内部使用,或者供所有人使用。其搭建过程如与 GPT 开始对话一样简单,给予它指令和额外的知识,并选择它可具备的功能,比如搜索网页、制作图像或分析数据等,目前该功能仅对 ChatGPT Plus 和企业用户适用。以下为自定义 GPT 构建流程:

进入构建页面后,GPT builder 将会展示分离的窗口:用户可以在“Create”面板输入提示指令来构建自己的聊天机器人; “Preview”面板允许用户在构建聊天机器人的过程中与其互动,这样更容易地确定如何对其进行改进。

在基础功能设置完成后,用户通过 Configure 面板可以继续自定义 GPT 的高级功能。

用户可以自定义更改的其他高级功能有:Profile picture(头像)、Instructions(指令)、 Conversations starters(对话开场白)、Knowledge(知识)、Capabilities(功能)、Actions (动作)。

聊天机器人可以依据公司的风格指南来起草回应,或者它能扫描 PDF 文件以获得更多上下文信息。

用户如果使用 Code Interpreter(代码解释器)选项可以运行代码或分析数据。

用户可以通过“Add Action”来使聊天机器人获取外部信息或在 ChatGPT 平台之外进行操作。

报告共计:18页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1