21世纪经济报道记者孔海丽、实习生刘清怡 北京报道
北京时间8月14日凌晨,谷歌在“Made by Google”大会上正式发布了智能语音助手Gemini Live。这一功能直接挑战OpenAI的GPT-4o语音模式,并标志着人工智能交互向更加自然、通用和用户友好的方向又迈进了一步。
根据谷歌的介绍,用户可以与Gemini Live进行自由流畅的对话,而不是通过传统的输入和输出设置。
在对话过程中,用户可以打断以询问更多细节,或者暂停一段时间后再继续。
为了使对话更加自然,谷歌还提供了十种声音以供用户选择。谷歌称,“这就像你的口袋里有一个伙伴,你可以和它谈论新想法或练习重要的对话。”
Open AI此前发布的GPT-4o高级语音模式,也允许用户在对话过程中打断,并能感知和回应用户的情绪波动。在语音设置方面,Open AI提供了四种声音,均与专业的配音演员合作制作。
此外,谷歌还将Gemini Live与其他应用程序和工具连接。谷歌表示,将在未来几周推出Keep、Tasks、Utilities、Calendar、YouTube Music等扩展功能。
谷歌描述了这些功能的具体应用场景。比如用户需要举办一场晚宴,可以让Gemini Live找到特定的食谱,并把食材添加到Keep购物清单中,还能定制一份“让人想起90年代末”的歌单;再比如只需要拍一张音乐会海报的照片,Gemini Live就可以回答用户当天是否有空,并提醒用户买票。
不过,在“Made by Google”大会现场演示Gemini Live功能时,却出现了一点小插曲。谷歌高管Dave Citron询问Gemini Live他的日程表上有没有活动,接连尝试了两次Gemini Live都没有响应,直到第三次换了一个设备才演示成功。
目前,谷歌已向Android手机上的Gemini高级订阅用户提供英语版,并将在接下来的几周内扩展到iOS上,同时提供更多语言模式。谷歌发布的最新款Pixel 9系列手机也搭载了Gemini Live功能。
业内人士认为,Gemini Live的发布是人工智能交互发展的一个重要里程碑。通过引入语音中断和选择功能,谷歌既是在与OpenAI竞争,也是在推动人机交互的方式,从而改变人工智能聊天机器人市场的竞争格局,倒逼其他公司创造出更多自然、实用、吸引人的人工智能助手。
同时,人机交互的创新发展也带来了新的问题和挑战。例如,人工智能将如何快速处理话题变化,同时保持上下文的统一和相关性?如何在不丢失重要线索的情况下处理干扰信息?更重要的是,随着人工智能的深入发展,其与现实生活的边界在哪里?
而OpenAI早在3个月前就已经公开介绍过的GPT-4o,至今尚未完全落地。8月9日,OpenAI发布了一篇关于安全性的博客文章,详细介绍了公司在开发GPT-4o时所做的安全努力,并探讨了这些技术可能对社会带来的风险。
OpenAI在该报告中指出了人工智能的类人社交模式可能造成的风险。OpenAI认为,用户可能会与人工智能建立社交关系,而减少对人类互动的需求。这有利于孤独的个体,但会影响健康的人际关系。
OpenAI透露,在GPT-4o的早期测试时,他们观察到用户与模型的互动语言开始出现微妙的变化,例如,“这是我们在一起的最后一天”等等,这种看似无害的表达,背后可能隐藏着更大的问题。
此外,OpenAI还提到,GPT-4o有时会无意间生成模仿用户声音的输出,这意味着,AI语音引擎可能会被用来欺诈。
而这些安全问题,也是OpenAI把控GPT-4o落地节奏的原因之一。至于谷歌Gemini Live是否解决了类似的安全隐患,并未披露。
所有与安全相关的隐患,无论是我们能够意识到的,还是“潘多拉魔盒”附带的更多可能性,都是人工智能事业需要进一步解决的问题,以保证“技术的进步是为了服务于人类”。
更多内容请下载21财经APP