“I see you rocking in a OpenAI hoodie, nice choice.”(我看到你穿着 OpenAI 的卫衣,很棒的选择。)
其做作的语调和拖音女声来自 OpenAI 发布的新旗舰模型 GPT-4o 的 Demo 片段。画面中,GPT-4o 通过摄像头的视觉识别对研究员的穿着作出点评,就像熟人许久未见一样。
对此,网友直呼:“这不是卡戴珊的腔调吗?听起来也太像人了,真恐怖。”
事实上,的确有相当一部分人并不喜欢GPT最新的声音。据彭博社报道,一些用户在体验了 GPT-4o 后感到不适,认为其声音过于性感和挑逗。而喜欢的人却深陷其中,认为和人谈恋爱不如和声音性感的 AI 搞暧昧香。
对此,过于拟人的 AI 语音引发了一个问题:当机器开始向你表达情感时,你会害怕吗?
能躲过老板画的大饼,对职场 PUA 说 NO,但一部分人却不可避免陷入 AI 设下的情感圈套。
悉尼大学教授 Marcel Scharth 指出,拟人化的语音助手可能会让人们在与机器的互动中受到情感伤害。就像对待朋友一样,如果我们对语音助手产生了情感依恋。但当它因为网络或服务器问题而无法满足我们的需求时,我们可能会感到失望甚至受伤。例如产生依赖的用户碰到 OpenAI 宕机时会在网上吐槽“自己回到了中世纪”。
悉尼大学 Marcel Scharth 发表于校刊的观点性文章《ChatGPT 现在更会假装人类情感了》
此外,GPT-4o的聊天带有小心思。PConline 注意到,4o 会不断进行反问,希望能得到用户持续的回答以此延长对话时间。然而,这种“关心”并非单纯的陪伴,而是平台背后的小心思。即使用户能免费使用 GPT3.5 的语音功能,但我们提供的每一段对话和数据仍被被 OpenAI 作为训练 AI 的资本。这背后隐藏着一种商业策略,即 AI 通过情感连接和对话(如不断在对话结尾提问的方式)换取用户数据,进而不断改进自己拟人化能力,形成一个循环获利、但本质上剥削用户情感的机制。
除了情感操控,GPT-4o 的另一个争议在于过度拟人而产生的恐怖谷效应。
恐怖谷效应是一种心理现象,指的是人们会对与人类非常相似但存在细微差异的事物感到厌恶。比如电影《机械姬》和《安娜贝尓》就是利用视觉上的恐怖谷效应制造惊悚感。
而语音助手可能会因为过于拟人的声音而让观众从听觉上产生恐怖谷效应。这些负面体验表明,尽管技术进步带来了更多的拟人化元素,但在设计上仍需慎重考虑用户的心理反应,避免反效果。
此外,过度拟人化的声音可能涉及版权隐私问题,如 “深度造假(Deepfake)”技术。 前不久,演员斯嘉丽·约翰逊正就“声音是否抄袭”与 OpenAI 打官司。此类事件引发了用户对于真假难辨的 Deepfake 技术的恐惧。315 期间,国家也多次整顿深度造假诈骗,如“假老板”骗走员工186万、“假女儿”骗走母亲 80 万等。
当然,拟人化的 AI 语音并非一无是处。具有亲和力的表达方式会增强用户信任,创新教育模式以及增强品牌辨别度。
首先,拟人化声音的优势在于提升用户体验和信任感。研究表明,人们更容易与具备社交属性的机器互动,并将其视为值得信赖的朋友。
发表在《美国计算机学会人机交互作用汇刊》(ACM Transactions on Computer-Human Interaction) 上的一篇论文发现,当语音助手表现出同理心和理解力时,用户更有可能展示合作欲望。就像接受服务一样,我们更愿意为好的情绪价值买单,反之亦然。语音助手设计上的友好、礼貌等特点其实也是为用户提供情绪价值。
《长期建立和维系人际关系》研究论文,发表于《美国计算机学会人机交互作用汇刊》
其次,拟人化语音助手还可以为教育领域带来新的可能性。研究表明,具有社交属性的聊天机器人能够帮助学生在家庭作业、学习帮助、个性化学习体验等各方面发挥积极作用。AI 定制化家教将更贴心。
例如,谷歌曾展示了一种基于拟人化语音助手的物理课教学模式,它能够将枯燥的物理知识通过生动有趣的形式呈现给学生。由此可见,作为辅导老师的 AI 语音助手不仅技能满满,还能做到寓教于乐。
最后,拟人化声音还可以增强用户黏性和品牌辨识度。独特的语音风格能够让用户更容易记住,从而提升用户忠诚度和品牌影响力。Siri 标准又机械的美式英语已经成为苹果品牌的独特标识之一。
提起语音助手,自然就少不了苹果的Siri,从目前来看,Siri 的拟人性落后于 ChatGPT。其实这是因为其两者的功能属性和设计理念不同:
Siri 更偏工具属性,是“你”的管家。其主要用于执行指令和任务,擅长处理用户的信息请求、设置闹钟、播放音乐和管理日程安排。开发人员更注重其高效的语言处理和特定于任务的算法,声音的机械性反而让用户将注意力集中在完成任务本身,而非与助手建立情感连接。
GPT-4o 更像一个“人”。这样的新型人工智能则面向社交互动和参与对话而构建。它利用更先进的自然语言处理 (NLP) 功能,可以理解和回答复杂问题、进行开放式对话,甚至表达情感。为了增强用户黏性,其声音设计也倾向于引发用户的情感和社交连接。
作为高频互动的用户入口,一个AI 助手的声音势必会影响到用户的体验,这并不是简单的商业决策。在决定采用何种声音时,需要权衡目标用户的心理需求、潜在的伦理问题以及商业利益。毕竟能带来更好的用户体验,但也潜藏着情感反噬、信息安全等风险。
皮尤研究中心的一项研究表明,52% 的美国人对人工智能的使用增加感到担忧,而不是兴奋。这是大多数人对新事物普遍的情绪,新平替技术的发明常常陪伴着各种恐慌,从抗拒到习以为常,充满了博弈。
在可预见的未来,随着人工智能技术不断发展,人机关系将变得更加复杂。就像电影《复联 2》里演的那样,当贾维斯被装上心灵宝石后改造为了奥创和幻视——代表具有自我意识、亦正亦邪的人工智能体。但许多观众却情有独钟贾维斯,因为它始终相信并执行它的创造者——钢铁侠的每一个决策。
本文来自微信公众号“PConline太平洋科技”(ID:pconline_cn),作者:太平洋科技,36氪经授权发布。