据香港IDC新天域互联了解,近日,OpenAI在旧金山举办了第二届开发者大会(DevDay)。虽然相较去年规模略显低调,但此次大会仍带来了四项重要的技术创新,旨在吸引更多开发者利用OpenAI的模型和技术构建人工智能应用。
一、Realtime API:提升语音交互效率
OpenAI推出了GPT-4o的Realtime API公开测试版,为开发者提供六种预设语音选项。这项功能显著提高了语音交互的效率和自然度,使开发者能够在应用程序中实现低延迟、多模态的用户体验。Realtime API的定价采用分级制,文本和音频token分别计费,为开发者提供了灵活的选择。
已有多家公司率先采用Realtime API,如健康应用Healthify和语言学习平台Speak,分别在AI教练对话和语言练习场景中应用此技术,展现了其广泛的应用前景。
二、Vision Fine-tuning:增强视觉理解能力
OpenAI在GPT-4o中引入了视觉微调功能,允许开发者使用图像和文字对模型进行定制化训练。这一功能大幅提升了模型的图像理解能力,可应用于视觉搜索、自动驾驶、智慧城市和医学影像分析等多个领域。
东南亚领先的叫车和外送平台Grab已成功应用此功能,通过教导GPT-4o识别交通标志和车道分隔线,显著改善了其地图服务质量。
三、Prompt Caching:优化成本和性能
为解决开发者在构建AI应用时面临的重复API调用问题,OpenAI推出了提示快取(Prompt Caching)功能。这项技术可为开发者节省高达50%的费用,同时提高提示处理速度。该功能将自动应用于GPT-4o、GPT-4o mini、o1和o1-mini等最新版本的模型。
四、Model Distillation:提升小型模型性能
模型蒸馏(Model Distillation)功能允许开发者利用较大模型(如GPT-4o和o1)来优化较小模型(如GPT-4o mini)的性能。这项技术旨在帮助开发者在保证性能的同时,实现更高的成本效益。
战略转变与行业影响
本次DevDay展现了OpenAI的战略重心转向增强开发者生态系统,而非直接竞争终端用户应用市场。通过提供更高效、更经济的工具,OpenAI正在为人工智能行业的长期增长和稳定发展奠定基础。
这些创新不仅降低了开发成本,也为初创企业和大型企业探索新的应用场景提供了机会。从医疗保健到教育,从客户服务到智慧城市,这些技术进步有望在多个领域催生更智能、更直观的人工智能应用。
OpenAI DevDay 2024虽然规模低调,但其推出的四大功能无疑将对人工智能行业产生深远影响。随着这些技术的逐步应用,我们有理由期待在不久的将来,人工智能将在更多领域发挥更大的作用,为社会发展带来新的动力。