本文作者:李丹
来源:硬AI
OpenAI被超越了,而且还是“栽在”已经公开演示过的语音助手上。
当地时间7月3日周三,法国独立非盈利AI研究实验室Kyutai公开演示了一款语音助理Moshi的实验性原型。Kyutai介绍,Moshi由该实验室的八人研究团队耗时六个月从零开始开发,是全球首款全体大众都可使用的实时生成式语音AI。
Moshi具有多种类似人类的情绪。Kyutai的科学家们表示,Moshi系统能够带着70种情绪和风格讲话。他们现场演示了,Moshi如何就攀登珠穆朗玛峰提供建议,还让Moshi用浓重的法国口音朗诵一首它自己创作的诗歌。
Kyutai宣布,周二晚些时候可在其网站查看Moshi的交互式演示。从周二起,就可以在线免费测试Moshi。Kyutai致力于为AI的开放研究和整个生态系统的发展做出贡献,Moshi模型的代码和权重将很快免费共享,这对于此类技术来说也是前所未有的。Kyutai的一名代表表示,Moshi模型和相关研究将在未来几周内发布,没有透露具体日期。
Kyutai认为,Moshi有潜力彻底改变数字世界中语音的使用方式,并举例称,在表达情感和多种声音之间的互动方面,它的文本转语音功能非常出色。
Kyutai的CEO Patrick Pérez称,Moshi可以“边说话边思考”,还说“我们相信 Moshi 具有巨大的潜力,可以改变我们与机器交流的方式。”
研究者Lucas Beyer在社交媒体发帖评论,Kyutai的Moshi是首个实时音频大语言模型(LLM)。Kyutai的演示种,Moshi基本上没有延迟,甚至还打断了演讲者几次。它实际上有点急于快速回答。而且Moshi是全部开源的。虽然声音质量还有点机械化,但作为初版,它还是表现不错。总体来说很酷。
Beyer指出,演示时,在苹果电脑macbook设备上的模型有一些实时拒绝误报,也许Kyutai对安全调整有点太急切了。然而,这只是证实了演示确实是实时的,甚至可能是自由发挥的,他喜欢这点。
有网友评论称,有趣的是,看到日语单词以赛博朋克的方式融入西方文化。在日语中,Kyutai 的意思是球体,moshi 是电话里的口语问候语,所以这两者结合起来就是“你好球体”。
Moshi被视为ChatGPT的最新挑战者。包括Anthropic、Cohere和谷歌在内,越来越多初创公司和科技巨头推出模型与GPT-4 竞争,尽管一些行业专家担心这项新兴技术带来危险。
Moshi的问世让Kyutai成为抢跑OpenAI推出语音助手的先锋。OpenAI之前打算在机器人聊天工具ChatGPT上提供类似功能,不到两个月前正式向公众展示了基于GPT-4升级版GPT-4o模型的语音助手。
在OpenAI今年5月中展示过程中,语言助手表现得像一个真正的成年人,能听能说能看,还能有情绪变化,最关键是几乎可以即时回应请求。它不仅可以讲睡前故事,能通过外表观察人的情绪变化,还能像一位朋友般安抚人紧张的情绪,甚至还可以像个经验丰富的数学老师般指导解代数方程,让一些观众联想到了2013年电影《她》中的AI虚拟助手。
但一个多月后,OpenAI又宣布因安全顾虑推迟发布上述语音助手。6月25日上周二,OpenAI在社交媒体发帖称,推迟上线ChatGPT语音助手功能是因为,需要确保它能安全有效地处理来自数百万用户的请求,还需要一个月才能达到公司的发布标准。
有网友本周二评论称,Kyutai推出Moshi基本上等于,把OpenAI还没公开发布的客户产品开源了,向Kyutai致敬。
不同于微软150亿美元支持的“美系”资本背景OpenAI,Kyutai致力于研究通用AI,去年11月“出生”起得到合计3亿欧元支持,其中主要来自欧洲实业资本。
Kyutai是法国亿万富翁Xavier Niel去年表示将对AI领域投资2亿欧元的投资对象之一。Niel旗下的电信集团Iliad去年公布,将为Kyutai项目投入1亿欧元。另一位法国亿万富翁、法国航运和物流巨头CMA CGM的CEO Rodolphe Saadé也对Kyutai投资了1亿欧元。前谷歌CEO Eric Schmidt也参与了Kyutai的投资,未披露金额。
Niel本周二表示,Moshi表明,欧洲可以成为AI发展的全球参与者。Kyutai“今天展示的所有产品都是全球一流的,我们很高兴能在欧洲推出这款产品。”
在安全方面,Kyutai的首席科学官 Hervé Jégou介绍,Kyutai将使用索引和水印工具识别和跟踪其 AI 生成的音频。