OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢，实时API升级音频token暴降60%

作者：新智元发布时间：2024-12-18

OpenAI

圣诞日第九天，OpenAI向第三方开发者开放了最强模型o1。

API中的o1，可支持函数调用、开发者消息、结构化输出和视觉功能。

同时，在开发语音类App的API中，集成了更先进的GPT-4o版本，成本直降60%！

另外，用户和开发者可根据自己的偏好，用「偏好微调」轻松定制模型了。

Day 9，是名副其实的「对开发者最有用的一天」。

与此同时，团队还进行了了一场在线AMA，解答了开发者的诸多问题。

Day 9，给开发者的新功能

今天，OpenAI将正式在API中推出o1满血版。

自从9月推出o1-preview之后，开发者们已经在API上构建出了大量很酷的应用程序，比如智能体、客户支持、财务分析等，同时它的编程技能也很出色。

但开发者们反馈说，API中缺乏了一些核心功能，因此，OpenAI今天会一并推出这些新功能。

此外，还有一些小更新，比如推理强度参数。这是一个新的参数，告诉模型去花多少时间思考。

在解决简单问题时，这个参数可以节省许多时间和成本，在需要更多算力的复杂问题上，就可以花费更多资源。

开发者消息，视觉输入功能，函数调用功能

开发者消息功能，是系统消息的一种新形式，实际上是OpenAI指令层次结构工作的一部分。

它会用来教模型，按照什么顺序遵循哪种指令。因此，开发者可以完全控制开发者消息来引导模型。

此外，OpenAI还在API中推出了视觉输入功能。

很多用户强烈呼吁这个功能上线，可以想见，它在制造业、科学等领域，会提供非常大的帮助。

在demo中，研究者给了模型一份表格的照片扫描件，有若干张。

注意，研究者填写的时候，故意填错了一些数据。o1是否能检测出这些错误呢？

在开发者消息中，研究者要求模型找出错误。如果要正确找出，必须其他几张照片的扫描。

果然，模型注意到了某一行的算术错误，还注意到标准扣除额不准确这种非常细节的问题。

改正错误后，研究者提问道：如果我的应税收入是这个，我要缴纳多少所得税？

可以看到，o1在右侧提供了一组函数。

比如其中一个函数，就是以JSON架构呈现

这些操作都在应用程序后端完成，用户看不到任何函数调用或来自API的响应。

此外，研究者还定义了一个JSON架构，来规范响应的格式。

在上面这个「表单修正」架构中，包含了一组修正，每个修正都包含错误原因等内容，这样就可以向用户展示哪里出错了。

甚至还能为PDF渲染一个用户界面，高亮出出错的地方。在我们不想从模型中渲染Markdown时，结构化输出特别有用，它让我们可以直接自动提取JSON。

最终，模型正确输出了修正结果。

API使用场景评估

针对API用例，OpenAI研究者进行了一些评估。

首先，在函数调用功能上，新的o1模型在函数调用能力上显著优于GPT-4。

这包含了两个关键部分——在需要时调用正确的函数，以及在不需要时避免调用函数。

另外，我们还可以将函数调用与结构化输出结合。

可以看到，o1比起GPT-4，同样表现出色。

在结构化输出中，o1在评估中也显著优于其他模型。

这意味着，模型在指令遵循上的表示更佳，在给出特定条件约束时，偏离预期的可能性也更低。

在编码方面，o1在Livebench评估中，要远远优于o1-preview和GPT-4o，这是一个巨大的进步。

而在AIME评估中，o1再次显著优于o1-preview。

有趣的是，最右侧是带有结构化输出的o1。

在构建结构化输出时，研究者希望确保模型在使用此功能和未使用时表现同样出色。

可以看到，即使启动了此功能，模型的推理能力依旧保持。因此我们可以放心在应用程序中使用，不必担心结果的准确性。

另外，模型在延迟上的变化也很有趣。

o1使用的推理Token，比o1-preview少了60%，因此对应用程序来说，它的运行速度更快、成本更低。

最后，研究者强调，抱歉暂时不会在API中推出o1 Pro，虽然此类请求非常多。

从今天起，函数调用、编码、结构化输出、开发者消息和图像理解，就会向第五级用户开放了。几周时间内，将覆盖到所有用户。

实时API，Her可以自己构建了

Realtime API（实时API）在今年10月初，正式放出了公测版。

在OpenAI伦敦开发者日上，所有人或许早已对其强大的实时语音能力有所了解。现场，开发者体验主管Romain Huet秀如何通过实时API订购派。

想象一下，你可以直接通过这个API构建ChatGPT高级语音模式了！不论是订餐AI助手，还是旅游AI助手等等，有了它就可以实现许多非常酷炫的功能。

它能够支持网络传输协议WebSocket，因此，你可以通过服务器进行通信，发语音并接受响应。

而在今天，OpenAI正式宣布实时API将支持WebRTC——专为互联网而生。

我们常见的视频会议，或者低延迟的视频流传输，都采用了WebRTC。它能够实时处理互联网不断的变化，比如动态调整比特率、进行回声消除。

现在，实时API也能共享这些优势了。假设你要构建一个应用程序，能省去不少功夫，可以直接运行。

接下来，OpenAI研究人员展示了一个demo，如下是HTML代码，包含了一个音频元素，一个对等连接（peer connection），它代表着你和实时API之间的一对一连接。

演示的重点，就是创建这个对等连接。当实时API向你发送音频时，把它放入到音频元素中。

紧接着，就是捕获麦克风输入的声音，并将其添加到对等连接中。首先，传输一个音频流到OpenAI，然后在设置好对等链接后，执行一个offer/answer操作。

offer/answer的作用是收集本地的所有信息。开发者通过HTTP POST发送这些信息，然后模型会作出响应。

然后，WebRTC 会为你处理所有细节，就不需要再去操心拥塞控制、音频捕捉等等。

那么，这个与之前WebSocket集成，有什么区别？

前者代码行数会大大拉长，达到200到250行，而且，在此基础上还会遇到其他的问题，比如处理反压（back pressure）等等。

接下来，运行一行代码，来看看它实际的样子。

音频元素——「圣诞节还有多少天？圣诞节是12月25日，而今天是12月17日。这意味着离圣诞节还有8天」。

剩余所做的，就是将其代码复制粘贴12行代码，执行脚本，就完成了。

这里，你唯一需要修改的就是 API Token，然后你就可以下载这段代码并运行。

OpenAI官方已经放出了所有代码，大家都可以随时构建。

令人惊喜的是，研究员请出了一位小伙伴——小鹿，它里面有一个微型控制器，大小如同一枚硬币。

插上电源之后，小鹿突然间活了，「圣诞快乐！你们在谈论什么」？

‍研究人员回复道，「我们正在讨论如何将WebRTC集成到实时API中」。

小鹿表示，「这听起来对我来说有点复杂。我们能不能聊点更有趣的事情，比如送礼物」？

接下来，研究人员和小鹿完成一轮精彩对话，完全展现了实时API的强大应用，而这只是所有用例的冰山一角。

这样，你就可以将其配置在任何可以穿戴的设备上，比如眼镜、摄像头、麦克风等等。而且，全程也只需30-45分钟。

此外，OpenAI还对实时API做了其他的更新。

从现在开始，GPT-4o音频Token将比以前便宜 60%，并在API中提供了对4o-mini的支持，其音频音频Token成本降低到当前价格的1/10。

其次，他们还为实时API推出了对Python SDK 的支持，使集成更加简单。

最后，还有一些API改进，让开发者更容易使用函数编码和安全防护机制。

偏好微调和定制化

关于微调和定制化，是开发者非常重要的一项功能，能够针对使用场景去定制模型。

直播现场，OpenAI官宣了全新的微调方法——偏好微调（preference fine-tuning）。通过使用直接偏好优化（DPO）能帮助开发者创建更符合用户偏好的模型。

具体来说，它是在比较不同回答中定制模型，而非使用固定的目标。

过去几个月，OpenAI火力全开，但微调API已经发布有一年的时间了，这次究竟有什么不同？

目前，在API中，他们推出了监督微调、以及前几天新推出的强化微调（RFT）。

在监督微调中，开发者需要提供模型需要的精确输入和输出，比如创建一个聊天机器人，就需要提供用户的消息以及精确的回复。

而在偏好微调中，有所不同。

你不需要提供精确的输入和输出，仅需要提供一对一响应，其中一个回应偏好度比另一个更强。

然后，微调过程便会优化模型，让其学会区分这些响应之间的差异。

这些差异可能包括响应格式、风格指南，甚至是一些抽象的特质，比如有用性或创造力。

那么，这种方法有什么样的特定用例场景？

客户支持、内容创作、创意写作等等，尤其是，适用于那些需要考虑语气、风格和创造力的主观任务。

如果在此过程中，开发者认为模型结果过于冗长，或者给出答案并不相关，就可以通过强化偏好的行为，并弱化不偏好的行为，来引导它生成更简洁、更相关的响应。

另一个非常好的使用场景可能是，内容审核或内容管理。

接下来，研究人员演示了如何通过API实现简单微调，先进入微调页面，点击「创建微调」选项，会看到一个新方法的下拉菜单。

选择「直接偏好优化」方法，然后在选择基础模型——GPT-4o。最后，需要做的就是上传数据。

假设需要做一个聊天机器人，让其更具对话性。这下面这个示例这种，是向助手询问纽约市天气的两组响应。

在首选的响应中，回复更加详细，使用的是华氏度。而在不理想的响应中，回复更为简洁，使用了摄氏度。

然后，将这些示例放入JSONL文件中，每个示例都包含了输入消息、偏好/非偏好的输出。

数据上传之后，再提供一些超参数（选择默认值），然后点击「创建」。

这样，微调过程就启动了。根据数据集的大小，这一过程可能需要几分钟到几小时不等。

一旦完成之后，我们能够像在API中任何基础模型一样，从新模型中采样。

目前，OpenAI已经向合作伙伴提供了偏好微调的早期访问权限，并收到了不错的反馈。

举个栗子，Rogo AI开发了一个面向金融分析师的AI助手，通过使用OpenAI模型重写、重构用户查询，以生成更相关的答案。

在使用监督微调时，他们未能使模型表现超越基础模型。但通过偏好微调，他们在内部基准测试中的准确率从基础模型的75%提升超80%。

鉴于GPT4o偏好微调所取得的成果，OpenAI预计很快将为GPT4o mini提供相同功能。同时，其训练Token的定价将与监督微调相同。

总言之，今天的OpenAI发布，对于开发者来说，是一个大礼包。

满血版o1引入API，具备了完整的生产功能集，而且函数编码功能，从今天起逐步推广到Tier 5。

另外，实时API能够支持WebRTC集成，以及token价格下降，以及偏好微调让场景定制模型更加容易。

而这些还不是全部，OpenAI今天还在一直持续推出新功能。

首先，在提升开发者体验和产品质量方面，OpenAI发布了新的SDK，新增对Go和Java SDK的支持。与Python SDK和Node SDK类似，它们支持OpenAI上所有你需要的API端点。

其次，在简化流程上，他们也推出了一个全新的登录、注册、获取API密钥的流程。现在，不需要签署5份服务条款协议，开发者即可在几秒钟内获取API密钥。

最后还有一个小彩蛋，过去几个月，OpenAI在世界各地举办了大大小小开发者日。

如今，他们将这些现场视频全部公开了，只需进入OpenAI官方YouTube页面即可查看。

信息量有点大，接下来可以慢慢消化了。

参考资料：

https://community.openai.com/t/ama-on-the-17th-of-december-with-openais-api-team-post-your-questions-here/1057527/198

https://community.openai.com/t/all-the-questions-addressed-by-the-api-team-during-the-december-17-2024-ama/1059780

https://venturebeat.com/programming-development/openai-opens-its-most-powerful-model-o1-up-to-third-party-developers/

https://openai.com/12-days/?day=9

本文来自微信公众号“新智元”，作者：新智元，编辑：编辑部 HYZ，36氪经授权发布。

近期资讯

年龄越大喝完酒越累！我终于找到了喝酒的正确方式

快科技12月26日消息，随着年龄增大，很多人发现自己喝酒之后开始力不从心，喝完身体感觉很累，且第二天难以恢复。对此，营养学家解释，是因为老化的身体代谢减慢，体内水分降低，导致酒精的负

朝晖 2024-12-26

女子吃1米糖葫芦长出巨大胃结石：食用山楂过量

12月26日消息，据媒体报道，李女士自述5天前食用了一大串山楂冰糖葫芦，后来就一直觉得肠胃不适。经诊断发现，其胃内有7cm、4cm大的两颗巨大结石，并且结石磨损胃黏膜，形成两处溃疡灶。医生

振亭 2024-12-26

8项农业科创新成果亮相，拼多多加速推动科研成果转化为新质供给

12月23日，在中央广播电视总台央视新闻与农业农村中心推出的《“智领农业慧未来”——农业科创荣耀时刻》特别节目中，8项取得重大突破的农业科创成果亮相。

新京报 2024-12-26

上了高铁突然发现8号、9号车厢不通！怎么办

不知道你坐高铁的时候有没有遇到这种情况：上了车，发现走错了，8号车厢的票上了9号车厢，但两节车厢之间竟然不通！这是怎么回事？这种情况学名叫“重（chóng）联”，就是两

上方文Q 2024-12-26

法国一高铁司机在行驶中跳车：车辆启动自动刹停系统

快科技12月26日消息，不怎么靠谱的法国人又搞出了令人震惊的大新闻。媒体报道，当地时间本月24日平安夜，400名乘客登上了巴黎开往圣艾蒂安的TGVInoui 6689次高速列车，按计划，列车于19点发车

落木 2024-12-26

比人眼视觉更好！小鹏汽车将于明年提供类无人驾驶能力

快科技12月26日消息，小鹏汽车智能驾驶负责人李力耘透露，公司正处于无人驾驶技术突破的前夜，并预计在明年将为Max车型提供类似无人驾驶的能力。他强调，小鹏汽车基于AI鹰眼的纯视觉方案，能在

王略 2024-12-26

不只有Intel基辛格：美国今年超1990位CEO离职创新高！

快科技12月26日消息，美国人力资源顾问公司Challenger Gray的最新报告显示，今年美国企业CEO离职人数创下历史新高，企业越来越偏好任命临时领导者。数据显示，截至11月美国企业共有1991名CEO离

黑白 2024-12-26

手机指纹解锁设置指南：提升安全与便利的完美选择

在现代社会，手机已经成为我们生活中不可或缺的一部分。无论是用来联系朋友，还是浏览社交媒体，抑或是进行网上购物，手机都扮演着重要的角色。

新报观察 2024-12-26

李云飞回应比亚迪巴西奴役中国工人：欲加之罪何患无辞

快科技12月26日，近日，有媒体报道称“巴西劳工部解救比亚迪工地奴役劳工”，此事引起网友关注热议。今日，比亚迪集团-品牌及公关处总经理李云飞发文回应称：欲加之罪，何患无辞。

若风 2024-12-26

我国首个商用堆在线辐照生产同位素装置成功投运

12月26日，记者从国家原子能机构获悉，我国首个商用堆在线辐照生产同位素装置在中核集团秦山核电基地正式投运，在此生产的首批镥-177医用同位素也同步出堆，标志着我国成功掌握批量化在线辐照生产短半衰期同位素的关键技术，一举打破我国关键医用同位素长期依赖进口的局面。

观察者网 2024-12-26

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢，实时API升级音频token暴降60%

Day 9，给开发者的新功能

开发者消息，视觉输入功能，函数调用功能

API使用场景评估

实时API，Her可以自己构建了

偏好微调和定制化

推荐体验

相关资讯

成本暴降60% OpenAI开放满血o1模型API

OpenAI开放满血o1模型API，成本暴降60%

OpenAI狂打“骨折价”的一天：暴降成本开放全新o1，实时 API 全面降价 60%

OpenAI第九天：向第三方开发者开放最先进大模型o1，成本暴降60%

OpenAI o1 推理模型 API 上线，仅面向特定开发者开放

近期资讯

年龄越大喝完酒越累！我终于找到了喝酒的正确方式

女子吃1米糖葫芦长出巨大胃结石：食用山楂过量

8项农业科创新成果亮相，拼多多加速推动科研成果转化为新质供给

上了高铁突然发现8号、9号车厢不通！怎么办

法国一高铁司机在行驶中跳车：车辆启动自动刹停系统

比人眼视觉更好！小鹏汽车将于明年提供类无人驾驶能力

不只有Intel基辛格：美国今年超1990位CEO离职创新高！

手机指纹解锁设置指南：提升安全与便利的完美选择

李云飞回应比亚迪巴西奴役中国工人：欲加之罪何患无辞

我国首个商用堆在线辐照生产同位素装置成功投运

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响