当前位置:首页|资讯|AIGC

Soul自研端到端语音通话大模型,提升AI情感陪伴体验

作者:纵观新闻发布时间:2024-10-31

Soul作为新型社交平台,自上线以来一直致力于以创新的技术方案和产品设计,实现社交体验的拓展。在AI技术快速发展的背景下,Soul率先探索AI与社交的融合,系统推进其在智能对话、语音技术、虚拟人等AIGC关键技术能力研发工作,并推动AI能力在社交场景的深度落地。近日,Soul App语音大模型再次升级,上线自研端到端全双工语音通话大模型,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

Soul自成立以来一直秉承着“让天下没有孤独的人”的愿景,致力于给用户带来更好的情绪反馈和陪伴感。因此在AI应用方面,情绪理解、延迟问题一直是Soul技术团队关注的焦点。

此前,Soul团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力,支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等,目前已应用于Soul “AI苟蛋”、站内狼人游戏“狼人魅影”AI语音实时互动、独立新产品“异世界回响”等场景。

如今,Soul上线自研端到端全双工语音通话大模型,实现了语音交互体系的颠覆式升级,即不再需要从“语音识别、自然语言理解、语音生成”等多个环节流转,直接语音输入—语音输出的端到端模型能够最大程度实现信息无损传递,降低响应延迟时间。

Soul自研的端到端语音通话大模型便具备超低交互延迟、快速自动打断、超真实声音表达和丰富情绪感知理解能力的特点,支持更自然的人机交互体验。

在延迟方面,于实际应用过程中,用户体验与“异世界回响”中虚拟人实时语音通话效果时,延迟时间少于行业平均水平,真正实现即时的AI交流和陪伴。

值得一提的是,端到端的语音语义理解和响应以及更自然的语音指令控制,让Soul语音通话大模型不仅能够给予情感关怀、理解人声情绪情感并给出有温度的回应,还能够理解物理世界的声音场景,模拟物理世界动物声音、理解多人聊天内容,实现多风格语言切换、文艺内容创作和即兴演唱,接近现实交流互动场景需要。

目前,Soul自研的端到端语音通话大模型能力已上线旗下“异世界回响”实时通话场景(内测中),接下来,Soul将持续推进多模态端到端大模型能力建设和应用落地,致力于拓展至更多场景,让用户可以与AI进行更加有温度、沉浸、趣味的互动交流,提升社交体验。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1