12月18日凌晨,OpenAI开启圣诞连播第九场:
本次发布会由 OpenAI 技术人员 Sean DuBois、Andrew Peng、Michelle Pokrass 和 Brian Zhang 等人共同主持。
直播活动结束后,OpenAI 也在 Reddit 论坛上举办了 AMA(Ask Me Anything)活动。我们精选一些亮点问答放在文末,建议不要错过。
而在召开发布会前,OpenAI 也上架了 DevDay 2024 的路演视频。
国内企业合规用 Azure OpenAI
作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括最新版本GPT-4o、o1、Sora、实时语音接口等,只要企业有需求,全云在线都能协助快速开通!
参考链接:https://azureopenai.cloudallonline.com/?zxwsh310
微软 Azure OpenAI 企业账户接口申请
在 OpenAI o1 模型发布之后,应广大开发者的呼声,期待已久的 o1 API 正式发布。即日起,OpenAI 向 API 使用等级 5 级的开发者开放访问权限。
据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:
函数调用:无缝连接 o1 与外部数据和 API。
结构化输出:生成可靠地遵循自定义 JSON 模式的响应。
开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。
视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。
更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。
在发布会上,OpenAI 演示人员也向我们展示了 o1 API 具体的应用案例。
比如说,借助 o1 API 的视觉能力,它能够检测上传表格中的错误并给出修订建议,还能在获取正确数据后完成所得税计算等复杂任务。
比较值得关注的是其结构化输出功能。
通过预先定义 JSON 架构,模型能够严格按照指定格式输出结果。并且,其还能基于这些结构化数据,在 PDF 界面中精确高亮显示需要修改的内容,以及支持函数调用与结构化输出的协同使用。
至于广受关注的 o1 Pro API,OpenAI 表示正在加紧开发中,有望在近期推出。
本次发布的 o1-2024-12-17 版本是对两周前 ChatGPT 版本的全新后训练优化, 在函数调用(function calling)和结构化输出测试(Structured Outputs testing)中的表现都要明显优于之前的 o1-preview。
目前,OpenAI 正在逐步推出访问权限,同时努力扩大对更多使用等级的访问,并提升速率限制。
文档指路:
https://platform.openai.com/docs/models#o1
为打造更自然、低延迟的对话体验,OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。
演示环节,OpenAI 展示了一个融入 Realtime API 的互动驯鹿玩偶,能够与人进行自然的对话,比如发布会就今年收到的圣诞礼物等话题聊了起来。
而更重要的是,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统,为人机交互开启更广阔的可能性。
应开发者需求,Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。
WebRTC 能够极大简化跨平台实时语音产品的开发流程。无论是浏览器应用、移动客户端、物联网设备还是服务器间通信,都能实现平滑接入。
据悉,该技术可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。
WebRTC 集成旨在确保在实际环境中,即使网络质量波动,仍能提供平滑且响应迅速的交互。它负责处理音频编码、流媒体传输、降噪以及拥塞控制等功能。
在定价方面,OpenAI 大幅下调了相关服务费用。
gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 token 40 美元,每百万输出 token 80 美元。
音频输入缓存费用仅需每百万 token 2.50 美元,大幅下降 87.5%,怎么有种 OpenAI 年底「百亿补贴」的既视感。
同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择,在保持体验的同时,将音频价格设定为每百万输入 token 10 美元,每百万输出 token 20 美元,文本 token 则分别为 0.60 美元和 2.40 美元。
为进一步提升语音交互体验,Realtime API 还新增了多项实用功能:
后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。
允许自定义输入上下文,指定哪些对话内容作为模型的输入。例如,可以选择仅对用户最后一句发言进行审核,或在不变更会话状态的前提下,重新利用之前的回应。
控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。例如,可以先收集必要信息(如账户详情),加入模型上下文,然后手动启动语音回复,以提供更多对时机和准确性的控制。
延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。
另外,此次更新还为微调 API 带来了偏好微调(Preference Fine-Tuning)技术。
Preference Fine-Tuning 采用直接偏好优化(DPO)技术,通过比较模型响应来训练 AI 区分用户偏好,在处理涉及语气、风格和创造力等主观因素的任务时尤其有效。
以 Rogo AI 为例,其金融分析师 AI 助手在采用该技术后,准确率从 75% 提升至 80% 以上。偏好微调今天将推出,适用于 gpt-4o-2024-08-06,并将在不久后为 gpt-4o-mini-2024-07-18 提供。
最后,OpenAI 还发布了 Go 和 Java SDK 测试版,与现有的 Python、Node.js 和 .NET 库一起,为开发者提供更全面的开发工具支持。
其中 Go SDK 主要适合构建高并发、可扩展的系统,而 Java SDK 则提供类型化的请求响应对象和 API 请求管理工具,能够带来更流畅的开发体验。
今天更新功能的脉络非常清晰,比如降价为规模化应用扫除成本障碍、简化开发流程,降低技术门槛、提升定制化能力等。抛却商业语境下的服务优化,这些改进都将有望进一步推动 AI 应用开发走向大众化。