当前位置:首页|资讯|OpenAI|Sora

OpenAI接口满血 o1 API 开放:成本暴跌,OpenAI最新发布

作者:等保测评办理发布时间:2024-12-19

12月18日凌晨,OpenAI开启圣诞连播第九场:

本次发布会由 OpenAI 技术人员 Sean DuBois、Andrew Peng、Michelle Pokrass 和 Brian Zhang 等人共同主持。

直播活动结束后,OpenAI 也在 Reddit 论坛上举办了 AMA(Ask Me Anything)活动。我们精选一些亮点问答放在文末,建议不要错过。

而在召开发布会前,OpenAI 也上架了 DevDay 2024 的路演视频。

国内企业合规用 Azure OpenAI

作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括最新版本GPT-4o、o1、Sora、实时语音接口等,只要企业有需求,全云在线都能协助快速开通!

参考链接:https://azureopenai.cloudallonline.com/?zxwsh310
微软 Azure OpenAI 企业账户接口申请

在 OpenAI o1 模型发布之后,应广大开发者的呼声,期待已久的 o1 API 正式发布。即日起,OpenAI 向 API 使用等级 5 级的开发者开放访问权限。

据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:

函数调用:无缝连接 o1 与外部数据和 API。

结构化输出:生成可靠地遵循自定义 JSON 模式的响应。

开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。

视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。

更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。

在发布会上,OpenAI 演示人员也向我们展示了 o1 API 具体的应用案例。

比如说,借助 o1 API 的视觉能力,它能够检测上传表格中的错误并给出修订建议,还能在获取正确数据后完成所得税计算等复杂任务。

比较值得关注的是其结构化输出功能。

通过预先定义 JSON 架构,模型能够严格按照指定格式输出结果。并且,其还能基于这些结构化数据,在 PDF 界面中精确高亮显示需要修改的内容,以及支持函数调用与结构化输出的协同使用。

至于广受关注的 o1 Pro API,OpenAI 表示正在加紧开发中,有望在近期推出。

本次发布的 o1-2024-12-17 版本是对两周前 ChatGPT 版本的全新后训练优化, 在函数调用(function calling)和结构化输出测试(Structured Outputs testing)中的表现都要明显优于之前的 o1-preview。

目前,OpenAI 正在逐步推出访问权限,同时努力扩大对更多使用等级的访问,并提升速率限制。

文档指路:

https://platform.openai.com/docs/models#o1

为打造更自然、低延迟的对话体验,OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。

演示环节,OpenAI 展示了一个融入 Realtime API 的互动驯鹿玩偶,能够与人进行自然的对话,比如发布会就今年收到的圣诞礼物等话题聊了起来。

而更重要的是,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统,为人机交互开启更广阔的可能性。

应开发者需求,Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。

WebRTC 能够极大简化跨平台实时语音产品的开发流程。无论是浏览器应用、移动客户端、物联网设备还是服务器间通信,都能实现平滑接入。

据悉,该技术可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。

WebRTC 集成旨在确保在实际环境中,即使网络质量波动,仍能提供平滑且响应迅速的交互。它负责处理音频编码、流媒体传输、降噪以及拥塞控制等功能。

在定价方面,OpenAI 大幅下调了相关服务费用。

gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 token 40 美元,每百万输出 token 80 美元。

音频输入缓存费用仅需每百万 token 2.50 美元,大幅下降 87.5%,怎么有种 OpenAI 年底「百亿补贴」的既视感。

同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择,在保持体验的同时,将音频价格设定为每百万输入 token 10 美元,每百万输出 token 20 美元,文本 token 则分别为 0.60 美元和 2.40 美元。

为进一步提升语音交互体验,Realtime API 还新增了多项实用功能:

后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。

允许自定义输入上下文,指定哪些对话内容作为模型的输入。例如,可以选择仅对用户最后一句发言进行审核,或在不变更会话状态的前提下,重新利用之前的回应。

控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。例如,可以先收集必要信息(如账户详情),加入模型上下文,然后手动启动语音回复,以提供更多对时机和准确性的控制。

延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。

另外,此次更新还为微调 API 带来了偏好微调(Preference Fine-Tuning)技术。

Preference Fine-Tuning 采用直接偏好优化(DPO)技术,通过比较模型响应来训练 AI 区分用户偏好,在处理涉及语气、风格和创造力等主观因素的任务时尤其有效。

以 Rogo AI 为例,其金融分析师 AI 助手在采用该技术后,准确率从 75% 提升至 80% 以上。偏好微调今天将推出,适用于 gpt-4o-2024-08-06,并将在不久后为 gpt-4o-mini-2024-07-18 提供。

最后,OpenAI 还发布了 Go 和 Java SDK 测试版,与现有的 Python、Node.js 和 .NET 库一起,为开发者提供更全面的开发工具支持。

其中 Go SDK 主要适合构建高并发、可扩展的系统,而 Java SDK 则提供类型化的请求响应对象和 API 请求管理工具,能够带来更流畅的开发体验。

今天更新功能的脉络非常清晰,比如降价为规模化应用扫除成本障碍、简化开发流程,降低技术门槛、提升定制化能力等。抛却商业语境下的服务优化,这些改进都将有望进一步推动 AI 应用开发走向大众化。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1