当前位置:首页|资讯

OpenAI发布实时API,这里有关于AI+RTE的最新进展

作者:晓曦发布时间:2024-10-18

近期,全球瞩目的诺贝尔奖公布,其化学和物理奖项获得者均在人工智能领域有深厚积累。随着“诺奖进入AI时代”,人工智能再一次获得空前关注。自OpenAI发布ChatGPT后,AI改变世界的脚步走到哪了?

就在10月1日,OpenAI举办了年度开发者日活动。今年,OpenAI并未发布全新的模型,而将重点聚焦在了多项面向开发者的 API 能力提升和工具更新上。其中,实时API的发布备受瞩目。

OpenAI的实时API主打低延迟、高交互的语音体验,开发者可以在此基础上构建快速、自然的语音到语音的对话体验。其实早在今年5月,OpenAI发布的GPT-4o已经开始深度探索端到端的实时多模态大模型能力。

不难发现,随着技术逐渐成熟,AI开始步入实用阶段。当下,AI基础设施正在成为新的焦点,而“实时互动”则是一个“能听会看”的AI必不可少的能力。

RTE成为对话式多模态大模型基础能力

大模型技术持续进化,交互方式正从文本向包含音视频的多模态方向演进。

微软AI CEO Mustafa Suleyman宣布今年年底微软AI将拥有实时的语音界面,并允许完全动态的交互。AI虚拟社交领域的明星初创公司Character.AI也表示已经推出了一项通话功能,用户可与人工智能角色直接语音对话。

人与 AI 的实时音视频互动正在走进现实。而这一现实成真的前提是,实时音视频的畅通传输。

提到实时音视频,就无法绕过国内实时互动领域的头部公司——声网。事实上,此次OpenAI在开发者日上公布的语音API合作者中,声网的兄弟公司Agora就名列其中,Agora 聚焦美国和国际市场。在RTC(实时音视频,Real-Time Communications)的基础上,声网在2020年提出了RTE(实时互动,Real-Time Engagement),即远程条件下沟通、协作的多方,能够随时随地接入、实时传递虚实融合的多维信息,并体验身临其境的交互活动。

随着实时多模态大模型的落地,RTE将成为对话式多模态大模型的基础能力。一方面,低延时的快速响应让人与AI的互动更接近人与人之间的实时对话,体验感更自然;另一方面,语音还能识别说话人的情绪、语调,视频能识别人的表情和所处的环境,最终输出更精准、更智能的回答。不难预见,在RTE的助力下,各类AI应用会以更贴近日常生活、更丰富且高效的交互方式运行。而互动对象和范围也不再限于人与人之间,人与AI,AI与AI都将结成实时互动的“网”。

到时候,各类实时互动强相关的AI场景,比如AI 陪伴场景、游戏智能 NPC、AI 口语老师、实时翻译等都有可能迎来爆发式增长。声网《实时互动场景创新生态报告》更是直接预测,到2025年,实时互动行业将形成超过千亿元人民币级别的市场。

面对一个确定性的未来,从业者们要如何乘着AI东风,抢占实时互动的市场先机?声网和RTE开发者社区联合主办的“RTE2024第十届实时互联网大会”如约而至,广泛邀请对AI与实时互动感兴趣的从业者和开发者,共同探讨生成式AI大时代下实时互动的进化与发展。

RTE行业风向标,深度探索“AI+RTE”的无限可能

10月25日-26日,由声网和RTE开发者社区联合主办的“RTE2024 第十届实时互联网大会”将在北京正式开启。今年的大会主题为“AI 爱”,将深度探索AI推动下的实时互动新趋势,推出覆盖实时互联网全生态的论坛及周边活动共计20余场。

此次大会设置了主论坛、行业专场、技术专场以及Workshop等周边活动。主论坛邀请了到了全球最受瞩目的 AI 科学家之一贾扬清,以及来自面壁智能、MiniMax、Hugging Face等企业的大咖,聚焦生成式AI与实时互动,探讨AI+RTE的技术实践与未来展望。

同时,声网创始人兼CEO赵斌也将回顾实时互动行业过去十年的历程,分享从 WebRTC 到生成式 AI 时代的 RTE 背后的发展进化,解读生成式AI 应用创新的机遇与挑战,同时也将展望 AI 驱动下,实时互动未来的无限可能。

大会还设置了七大行业分论坛。除了AI专场之外,还包括出海、泛娱乐、教育、IoT等RTE大热领域的专场分享。这些领域里,AI与RTE的结合正产生加速增长的协同效应,行业即将迎来一波全新的机遇。行业论坛上,智谱、阿里通义千问、Soul、inSpaze、旷视、小米等各领域领军企业都将加入讨论,共同描摹“AI+RTE”广阔的场景创新应用图景。

场景之外,大会还将围绕“音频技术和Voice AI”、“视频技术和AI视频生成”、“RTC+大模型”、“空间计算和新硬件”、“云架构和AI时代的Infra”5大主题分别开设技术专场。据悉,RTE开发者社区联合主理人/零一万物开源负责人林旅强、北京大学教授马思伟等一众业内技术大咖与专家学者将作为技术论坛出品人深度参与进来,与开发者探索实时互动与GenAI、空间计算等前沿技术的碰撞,并带来最深入的技术解析。

除了深入的技术解析、有态度的行业洞察之外,大会还为广大开发者准备了丰富的开发者活动。此次大会专门开设Workshop环节,将手把手带领开发者用TEN开源框架现场搭建拥有音视频理解能力的AI Agent,激发开发者开创更多AI实时互动场景创新。 

与此同时,本届RTE大会上,第四届RTE创新大赛决赛将一并举行。届时,数百位海内外的“AI+RTE”领域创业者将在决赛展示各自领域的创新应用与前沿技术,并直面投资人,接受市场的检验。

业内顶级大咖资源支持,覆盖“AI+RTE”领域热门议题,辐射最广的RTE开发者群体,本届RTE大会将实时跟进AI新时代下RTE的行业发展风向,为从业者指明前行道路,并带领行业向更深、更广处发展。

十年耕耘,RTE大会从“技术交流”走向全行业盛会

2015年声网举办了首届实时互联网大会。自此,从RTC大会到如今的RTE大会,十年的时间里,实时互联网大会从专门面向开发者的技术交流会议,发展为全球音视频领域极具影响力的行业盛会。

最初,大会的诞生源于“一群拥有技术情怀,对技术极致追求的开发者创办了实时互联网大会,希望更多开发者借助大会将RTC技术能力应用到极致”这一初衷。十年前,实时互动需求萌芽,但国内并没有专门的实时音视频服务。面对国内实时互动市场一片荒芜的情景,声网成立后即将第一届实时互联网大会引入国内。

2015年行业萌芽,到2016-2019年移动互联网快速发展,RTC技术在直播、社交等领域大放异彩,再到2020年以后,各类线上应用大行其道,实时互动也成为快速增长的新兴赛道。十年的发展中,实时互联网大会代表和见证着实时互动发展的不同阶段和里程碑,也因此从纯技术大会走向行业峰会。

作为行业峰会,RTE大会也不再止步于技术,其覆盖范围向产品、生态、创业等多层面延伸,以更深、更广的视角纵览实时互动赛道。

聚集行业顶级资源,实时互联网大会伴随并推动着RTE行业的成长,更提前预测了不少RTE场景的萌芽和爆发。不管是2015年的直播连麦,还是2017年的直播电商、2018年的百万人互动大频道,这些出现在当年实时互联网大会上的场景,都在第二年迎来爆发式增长或称为新的风口。

今年,在AI风暴的搅动下,RTE行业风云再起。哪些新场景有望迎来爆发?哪些应用将实现巨量增长?“AI+RTE”又将如何颠覆我们在日常生活和工作中习以为常的认知和习惯?一个实时互动的智能化时代可能是什么样的?“RTE2024第十届实时互联网大会”等你来揭晓。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1