一文读懂OpenAI新武器:Realtime API让AI对话更像人类

作者：新天域互联发布时间：2024-10-28

据香港IDC新天域互联了解，近日，OpenAI在旧金山举办了第二届开发者大会（DevDay）。虽然相较去年规模略显低调，但此次大会仍带来了四项重要的技术创新，旨在吸引更多开发者利用OpenAI的模型和技术构建人工智能应用。

一、Realtime API：提升语音交互效率

OpenAI推出了GPT-4o的Realtime API公开测试版，为开发者提供六种预设语音选项。这项功能显著提高了语音交互的效率和自然度，使开发者能够在应用程序中实现低延迟、多模态的用户体验。Realtime API的定价采用分级制，文本和音频token分别计费，为开发者提供了灵活的选择。

已有多家公司率先采用Realtime API，如健康应用Healthify和语言学习平台Speak，分别在AI教练对话和语言练习场景中应用此技术，展现了其广泛的应用前景。

二、Vision Fine-tuning：增强视觉理解能力

OpenAI在GPT-4o中引入了视觉微调功能，允许开发者使用图像和文字对模型进行定制化训练。这一功能大幅提升了模型的图像理解能力，可应用于视觉搜索、自动驾驶、智慧城市和医学影像分析等多个领域。

东南亚领先的叫车和外送平台Grab已成功应用此功能，通过教导GPT-4o识别交通标志和车道分隔线，显著改善了其地图服务质量。

三、Prompt Caching：优化成本和性能

为解决开发者在构建AI应用时面临的重复API调用问题，OpenAI推出了提示快取（Prompt Caching）功能。这项技术可为开发者节省高达50%的费用，同时提高提示处理速度。该功能将自动应用于GPT-4o、GPT-4o mini、o1和o1-mini等最新版本的模型。

四、Model Distillation：提升小型模型性能

模型蒸馏（Model Distillation）功能允许开发者利用较大模型（如GPT-4o和o1）来优化较小模型（如GPT-4o mini）的性能。这项技术旨在帮助开发者在保证性能的同时，实现更高的成本效益。

战略转变与行业影响

本次DevDay展现了OpenAI的战略重心转向增强开发者生态系统，而非直接竞争终端用户应用市场。通过提供更高效、更经济的工具，OpenAI正在为人工智能行业的长期增长和稳定发展奠定基础。

这些创新不仅降低了开发成本，也为初创企业和大型企业探索新的应用场景提供了机会。从医疗保健到教育，从客户服务到智慧城市，这些技术进步有望在多个领域催生更智能、更直观的人工智能应用。

OpenAI DevDay 2024虽然规模低调，但其推出的四大功能无疑将对人工智能行业产生深远影响。随着这些技术的逐步应用，我们有理由期待在不久的将来，人工智能将在更多领域发挥更大的作用，为社会发展带来新的动力。

相关资讯

2023-02-08

一文读懂「AI+游戏」

5天后，用户数量过百万，两个多月后（2023年1月），ChatGPT的用户数超过1亿，成为增长最快的消费者应用程序。这家公司已经深耕8年，而他们也仅是AI生态中的公司之一，AI生态这个庞然大物还未真正浮上水面。

ChatGPT

游戏葡萄 2023-05-06

一文读懂GPT Store

2023年11月6日举行的OpenAI第一届开发者大会上，OpenAI官宣了GPTs，大家无需写代码就可以实现满足特定需求场景的自定义ChatGPT。截止到2024年1月，已经有超过300万个

OpenAI 编程 ChatGPT

coding进阶 2024-02-03

一文读懂OpenAI新武器:Realtime API让AI对话更像人类

推荐体验

相关资讯