划重点
OpenAI o1 API新增了函数调用、结构化输出和视觉能力等支持功能。
实时API更新包括简化版的WebRTC集成,GPT-4o音频价格降低60%。
偏好微调使得根据用户和开发者的偏好来定制模型变得更加容易。
新推出的Go和Java SDK现已提供测试版。
自美国当地时间12月5日起,OpenAI开启了一轮密集的新功能发布周期,计划在接下来的12天内通过12场直播活动陆续推出新产品和功能。在此之前,OpenAI已经陆续发布了多项创新,包括满血版o1模型、ChatGPT Pro计划、强化微调技术、视频生成工具Sora、交互界面Canvas、高级语音视觉功能、智能文件夹Projects以及向全体ChatGPT用户开放ChatGPT搜索功能等。
12月18日,也就是在OpenAI发布会进行到第九天时,该公司正式宣布,将通过其应用程序编程接口(API)向第三方开发者开放其尖端大模型o1系列。这一消息对开发者而言无疑是巨大的福音,因为他们渴望构建全新的高级人工智能应用程序,或者将OpenAI的最先进技术融入他们现有的应用程序和工作流程之中,无论这些应用是面向企业还是消费者。
OpenAI的o1系列模型于2024年9月发布,作为公司“新家族”系列中的首款力作,它超越了GPT系列大语言模型(LLM)的范畴,并引入了“推理”功能。
o1系列模型包括o1和o1 mini,虽然需要更长的时间来响应用户提示并生成答案,但它们在形成答案的过程中会进行自我校验,确保答案的准确性,并有效避免产生“幻觉”。发布时,OpenAI就宣称o1能够处理更为复杂、达到博士水平的问题,这一点也在用户的实际反馈中得到了验证。
尽管开发者们此前已经能够访问o1的预览版本,并在此基础上开发自己的应用程序,如博士顾问或实验室助理等,但通过API发布的完整o1模型带来了更高的性能、更低的延迟以及新功能,使其更加便于集成到实际的应用场景中。
大约两周半之前,OpenAI已经通过ChatGPT Plus和ChatGPT Pro计划向消费者推出了o1模型,并增加了模型分析以及响应用户上传的图像和文件的功能。
在今日发布的同时,OpenAI还宣布了其实时API的重大更新,以及降价策略和新的微调方法,旨在帮助开发者更好地掌控他们的模型。
新推出的o1模型内部编号为o1-2024-12-17,特别设计用于处理复杂的多步骤推理任务。与早期的o1预览版本相比,这一版本在准确性、效率和灵活性方面均实现了显著提升。
OpenAI公布了一系列基准测试的结果,展示了新模型在编码、数学和视觉推理任务上的显著进步。例如,在SWE-bench Verified(旨在通过更可靠方法评估人工智能模型解决现实世界软件问题能力的基准测试)中,o1的编码结果从41.3提升至48.9。而在以数学为重点的AIME测试中,o1的性能更是从42跃升至79.2。这些显著的改进使得o1成为构建简化客户支持流程、优化物流解决方案或解决挑战性分析问题的理想工具。
此外,o1还新增了几个特性,进一步增强了其为开发者提供的功能。结构化输出功能允许模型的响应能够可靠地匹配自定义格式(如JSON模式),从而确保与外部系统交互时的一致性和准确性。函数调用功能的引入则简化了o1连接到API和数据库的过程,使得集成更加便捷。同时,o1还具备了在视觉输入上进行推理的能力,这一特性在制造、科学和编码等领域开辟了新的应用场景。
为了让开发者能够更精细地控制o1的行为,OpenAI还推出了新的reasoning_effort参数。该参数允许开发者根据任务需求调整模型在任务上花费的时间,从而在性能和响应时间之间找到最佳平衡点。
OpenAI还宣布了其实时API的重大更新,旨在支持低延迟、自然的会话体验,如语音助手、实时翻译工具或虚拟导师等应用场景。
此次更新中,新的WebRTC集成成为一大亮点。它直接支持音频流、噪声抑制和拥塞控制,极大地简化了基于语音的应用程序的构建过程。开发者现在只需进行最小化的设置,即可集成实时功能,即使在多变的网络环境下也能保持稳定的性能。
在定价方面,OpenAI也推出了新的策略,使得GPT-4o音频的成本降低了60%。具体而言,每100万输入Tokens的费用为40美元,每100万输出Tokens的费用为80美元。同时,缓存音频输入的成本也降低了87.5%,现在的定价为每100万输入Tokens 2.5美元。
为了进一步提高性价比,OpenAI还推出了GPT-4o mini,这是一种更小、更具成本效益的模型。其价格更为亲民,每100万输入Tokens的费用为10美元,每100万输出Tokens的费用为20美元。此外,GPT-4o mini的文本Tokens费率也相对较低,输入Tokens的起始价格为0.60美元,输出Tokens的起始价格为2.40美元。
除了定价方面的调整,OpenAI还赋予了开发者对实时API响应的更多控制权。例如,并发带外响应等特性允许后台任务(如内容审核)在不干扰用户体验的情况下运行。开发者还可以根据实际需求定制输入上下文,专注于对话的特定部分,并控制语音响应的触发时机,从而实现更准确、更无缝的交互体验。
另一个重要的新增功能是偏好微调,这是一种创新的模型定制方法,能够根据用户和开发者的偏好来优化模型表现。
与传统的依赖于精确输入输出的监督式微调不同,偏好微调采用成对比较的方式来指导模型选择更优的响应。这种方法在处理主观性较强的任务时尤为有效,例如总结、创造性写作或是语气和风格更重要的应用场景。
与Rogo AI等合作伙伴的早期测试已经展现出了偏好微调的巨大潜力。Rogo AI致力于打造专为金融分析师服务的助手,他们报告称,与传统的微调方法相比,偏好微调显著提升了模型处理复杂、超出分布范围查询的能力,任务准确率提高了5%以上。这一功能目前已在GPT-4o-2024-08-06和GPT-4o-mini-2024-07-18模型中可用,并计划于明年初扩展至更多新模型上。
为了进一步优化集成流程,OpenAI正拓展其官方SDK产品线,现推出Go和Java版本的测试版SDK。这些新增的SDK与现有的Python、Node.js和.NET库相辅相成,极大地拓宽了开发者在不同编程环境中与OpenAI模型进行交互的便利性。Go SDK在构建可扩展的后端系统方面展现出独特优势,而Java SDK则专为依赖强类型和稳健生态系统的企业级应用而设计。
通过这一系列更新,OpenAI为开发者配备了一个功能更为全面的工具箱,旨在助力他们开发出先进且高度可定制的人工智能应用程序。无论是利用o1模型增强的推理能力,还是实时API的显著增强,亦或是灵活多样的微调选项,OpenAI的最新产品均致力于为企业提供更卓越的性能表现和更高的成本效益,从而不断扩大人工智能集成的边界。
本文来自“腾讯科技”,编译:金鹿,36氪经授权发布。