当前位置:首页|资讯|生成式AI

声网赵斌:生成式AI将驱动IT行业四大变革

作者:止观观止发布时间:2024-12-19

作者:随心

“生成式AI正在驱动IT行业发生大变革。”10月25日,在声网和RTE开发者社区联合主办的RTE2024第十届实时互联网大会上,声网创始人兼CEO赵斌对于RTE在生成式AI时代下发展的趋势判断如是说道。

赵斌认为,这一趋势主要体现在四个层面:即终端、软件、云和人机界面。在终端上,大模型能力将驱动PC和Phone往AI PC和AI Phone的方向进化。在软件上,所有的软件都可以、也将会通过大模型重新实现,并从Software with AI发展至AI Native Software。在云的层面,所有云都需要具备对大模型训练和推理的能力,AI Native Cloud将成为主流。此外,人机界面的主流交互方式也将从键盘、鼠标、触屏变成自然语言对话界面(LUI)。

随着生成式AI成为下个时代IT行业进化的主题,RTE也成为了多模态应用和基础设施中一个关键的部分。10月初,声网的兄弟公司Agora作为语音API合作者,出现在了OpenAI发布的Realtime API公开测试版中。

此次大会上,赵斌表示,声网与MiniMax正在打磨中国第一个Realtime API。赵斌也展示了声网基于MiniMax Realtime API打造的人工智能体。在演示视频中,人与智能体轻松流畅的进行实时语音对话。当人类打断智能体并提出新的疑问时,智能体也能够非常灵敏的快速反应,实现了与人类自然流畅的对话。

此次声网正式发布了RTE+AI能力全景图。在全景图中,声网从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,清晰呈现了当下RTE与AI相结合的技术能力与应用方案。生成式AI与RTE结合带来的场景创新,将成为下一个十年的主题。

过去十年,声网不仅见证并推动了RTE从一个理念变成一个行业的过程,更身体力行的打破了国内实时音视频领域的三无状态。赵斌称,10年前行业内没有行业会议、专业书籍、以及专业媒体和社区。如今,RTE大会迈入第10年,声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》,同时,RTE开发者社区也持续繁荣,加速推动。

在已经到来的AI时代,现代化基础设施应该是什么样?

声网首席科学家、CTO钟声表示,大量用户设备往往会先接入边缘节点、并在需要的时候再接入云端,数据将在端设备、边缘节点和云之间往返传递。AI时代的数据中心会包含以大量异构算力组成的超级计算集群(SuperScaler)。但是,停留在仅依赖超级计算集群的系统是远远不够的,万亿参数、多模态引入所造成的高昂计算成本、缺乏机制约束的数据隐私保护、几秒钟的延时都将阻碍大模型的普惠,极大地限制其在很多场景下的应用。

钟声认为,分布式端边云结合的AI系统将有效解决这些痛点。这个系统将把计算和传输在各节点做合理地配置,系统会智能地以自适应的方式把任务编排到端与边上执行,非常有效地降低了成本,同时提供了更低延时(低于1秒级的响应速度)、更高网络抖动容忍度、优秀的抗噪声能力,并且完整的用户数据只会保留在端上。

钟声还在大会现场演示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体,这也是全球首次有厂商在比日常实际场景更具挑战的环境下展示实时AI对话能力。大会现场观众规模超过千人,面临复杂的噪声、回声、麦克风延迟等困难,但智能体与钟声的互动仍然表现出了优秀的对话能力,在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话,对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1