国内首个端到端语音大模型发布上线，能捕捉语气情绪做到“更懂人”｜外滩大会

作者：东方网发布时间：2024-09-06

东方网记者柏可林9月5日报道：9月5日，在外滩大会“大模型的创造力边界与应用想象力”论坛上，大模型创业企业西湖心辰正式发布并上线国内首个端到端语音大模型“心辰Lingo”。

“心辰Lingo”实现了端到端语音技术，在处理对话时直接理解语音，捕捉语气、节奏和情绪，并进行语音回复，减少了信息处理过程中的损失，让“机器”更懂人。作为国内首个端到端语音大模型，它开创了人机交互新方式。

全球权威咨询机构IDC分析预测，到2030年，全球智能语音服务市场的价值将达到约731.6亿美元，年复合增长率预计将达27%。全球范围内的科技公司都敏锐地捕捉到了这一领域的增长潜力，纷纷投身智能语音技术的开发，一场全新的人机交互革命正在被点燃。

“心辰Lingo能捕捉到语音中的细微变化，不仅能理解你说了什么，还能理解更想表达什么，真正做到了为AI赋予‘高情商’，使其能够精准洞察言外之意。这也是西湖心辰作为持续深耕大模型情商能力又一个重要技术突破。”西湖心辰CEO醒辰在发布会现场表示。

据介绍，心辰Lingo语音大模型的能力在多个领域和中文上进行增强，使得心辰Lingo的中文语音效果，相较GPT4o更为出色。主要有三个技术特征。

一是原生的语音理解。作为端到端模型，心辰Lingo不仅能够识别语音中的文字信息，还能精确捕捉其他重要特征，如情感、语气、音调，甚至环境音，更全面地理解语音内容，从而提供更加自然和生动的交互体验。

二是多种语音风格表达。心辰Lingo可以根据上下文和用户指令，自适应调整语音的速度、高低、噪声强度，并能够生成对话、歌唱、相声等多种风格的语音响应，有效提升了模型在不同应用场景下的灵活性和适应性。

三是语音模态超级压缩。心辰Lingo采用具有数百倍压缩率的语音编解码器，能够将语音压缩至极短的长度，在显著降低计算和存储成本的同时帮助模型生成高质量语音内容。

心辰Lingo开放内测预约不到10天，已经有超千家企业用户预约测试，包括了教育、金融、医疗健康、政府与公共服务、媒体与娱乐、零售与商业服务、制造与工程等八大行业，数十个实际使用场景。

在心理健康咨询场景下，某医院拟运用心辰Lingo的语音技术提供患者心理咨询和干预，通过AI智能对话系统，为患者提供情绪支持，帮助他们应对疾病带来的心理压力；在客户服务与支持场景下，某知名产险企业，希望利用心辰Lingo的语音技术进行客户服务和外呼，针对退保挽留和续保挽留等自动外呼场景，通过智能语音系统提高服务效率和客户满意度。此外，陪伴领域还涌现出一系列个性化需求，如游戏语音陪伴、社交辅助助手、语音母婴看护等，这些需求的多样性和创新性为心辰Lingo提供了广阔的应用前景。

发布现场，醒辰透露，西湖心辰即将在10月份发布基于心辰Lingo进行领域深度训练的儿童陪伴、心理疏导、销售服务3大垂类语音模型，与更多行业领袖携手，共同推动AI技术的创新和应用，开启智能服务的新篇章。

西湖心辰是一家致力于人工智能多模态大模型技术研究及产业化应用的创新企业，背靠中国新型研究性大学“西湖大学”。外滩大会期间，西湖心辰创始人蓝振忠还获得了首届蚂蚁InTech科技奖。目前，西湖心辰已获得汤姆猫、蓝驰创投、凯泰资本、百度风投、西湖科创投，西湖教育基金会可持续发展平台等知名机构数千万美金投资。