当前位置:首页|资讯|人工智能|ChatGPT

与人工智能对话的两条哲学路线

作者:神译局发布时间:2024-08-13

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:最近苹果和OpenAI均推出了与AI进行语音对话的功能。本文是对两家公司产品使用的第一印象,作者认为,这两家公司的做法体现出两种 AI 哲学的分歧——属于助理(Copilots)与智能体(Agents)之争、小模型与大模型之争、专家与通才之争。文章来自编译。

前两天,我在手机上跟两个人工智能(AI)展开对话。虽然两者都很乐意与我交谈(而且也进行了交谈),但各自却体现出对人工智能未来截然不同的看法,有着不一样的抱负和潜在影响。我想明确一点,两者都是早期模型,还远未成型,但我认为分享我迄今为止的经验可能会有所帮助。

我们要说的是 ChatGPT 新推出的高级语音模式以及获得了AI新引擎的 Siri。二者不仅仅是与 AI 对话的不同方法。从很多方面看,它们还代表了两种 AI 哲学的分歧——助理(Copilots)与智能体(Agents)之争、小模型与大模型之争、专家与通才之争。

作为助理的Siri

至少目前,跟 Siri AI 对话的感觉仍然像跟旧版 Siri 的对话一样。你不会被惊讶到目瞪口呆,仍然会因为 Siri 的不靠谱而感到沮丧。

缺乏“惊艳”是有原因的,苹果打造 Siri AI 的要务是保护隐私、安全和保障。有超过 10 亿人使用他们的系统,苹果不希望人们面临大语言模型(LLM)的各种风险与怪异之处,他们想要的是能用且极其私密的东西。

这样做需要权衡取舍,于是苹果把小型 AI 直接植入到手机上,不依赖于互联网连接。因为 AI 模型有多种规模,所以要实现这一点还是有可能的。比方说,Meta 的 Llama 3.1 模型参数达到了 4050 亿(相当于 GPT-4),还有个中等规模(700 亿参数)的模型(大概相当于ChatGPT-3.5),还有一个小型(80 亿参数)模型。参数量体现了AI 模型的复杂性——数字越大通常表示系统功能越强大,但资源密集程度越高。我的电脑就可以跑最小的模型,但跑 4050亿 参数模型需要专门的硬件。小模型远没有那么强大,但可以在其他方面弥补这方面缺陷。

小模型价格低廉、速度快,可以在性能较弱的硬件(如手机)上运行,并且可以专门用于执行特定任务。与 ChatGPT 等通用模型不同,小模型会创建专注于某一特定任务的人工智能,而且通常可以做得相当好。Siri AI 背后就是一个小模型,参数只有30 亿,但它采用了一种巧妙的方法,允许其设备上的人工智能切换“专家”,比方说有总结文本的,有编辑图像的。由于所有工作都是在手机上完成的,所以是加密的并且非常私密。

不过,鉴于这是个小模型,所以没那么智能。事实上,给人感觉就像在使用旧版的 Siri,只是略有改进。如果我问它“我今晚想去吃饭和看电影,确保我能在 6 点之前到达,10 点之前到家。我想吃点辛辣的拉丁美食,看一部动作片”,AI会显得很弱智。不过,这对 LLM 来说并不是一个难题。一个稍大一点的模型 Llama 8B 就能做得更好(尽管确实会犯一些细节错误,因为没有网络访问权限)。

不过,这只是 Apple AI 的开始,因为未来的升级会让手机上的 Siri 在无法解决问题时能向云端更强大的 Apple AI 寻求帮助,甚至将真正困难的问题交给 ChatGPT。它将能够与应用交互,触发操作并从多个来源获取信息。这项技术肯定会得到改进。

但是,苹果的做法不仅仅是技术上的,还是一个哲学上的决定。人工智能有风险,不可预测,会产生幻觉,有可能被滥用,并不总是私密的。所以,苹果决定降低滥用或失误的危险。他们把 Siri 变成了助理。你会看到这些助理出现在许多产品之中——是功能非常狭窄的人工智能系统,旨在帮助完成特定任务。如此一来,他们隐藏了大语言模型更奇怪、更危险、更强大的一面。助理可能会有所帮助,但不太可能带来生产力的飞跃,也不会改变我们的工作方式,因为受到限制。强悍与安全如鱼与熊掌。

作为智能体的ChatGPT Voice

如果说 Siri 是为了让人工智能变得不那么怪异、更可预测,那 ChatGPT Voice 则恰恰相反。它未必用小型的定制模型,而是提供对通用 GPT-4o 全部功能的访问。虽然几个月前 ChatGPT 就推出过语音模式,但这种模式非常不同。它进行的是自然对话,会有停顿,也会连珠炮。 

比方说,我这里用了 ChatGPT 来帮助我撰写这篇文章的开头段落。不仅要注意其抑扬顿挫,还要注意微妙的音调变化(对我和我的工作表现出的热情、听起来很自然的音调等)。

用语音方式与 ChatGPT 互动实在怪异,因为它的节奏、语调甚至装出来的呼吸都让人感觉很像人类。它能够模拟各种情绪,因为这不仅仅是触发录音播放而已,在输出和输入方面显然完全是多模态,它接收和生成声音的方式与老一代 LLM 接收和生成文本的方式一样。目前,似乎这些功能很多都被锁定在护栏背后——正如你在下面的剪辑结尾处所看到那样,目前不允许人工智能生成音效,也不允许大幅改变其声音,这可能是为了避免被滥用——但这些能力它都具备。

通过语音使用 ChatGPT 就像与人交谈一样。尽管底层模型与通常的 GPT-4o 没什么不同,但加上语音有很多影响。比方说,语音辅导的工作方式与通过打字交流的辅导非常不同。它还可以说许多其他语言,为跨文化交流提供了新手段。我一点都怀疑大家对 ChatGPT 助手会产生情绪反应,后果难以预测。

但就像苹果没有使能系统的全部功能一样,OpenAI 也留了几手。他们的人工智能是完全多模态的,这意味着具备图像和视频识别能力,并且相对与比以前的模型也许能生成更好的图像。如果他们的愿景实现,我们很快就会有助手可以观看、聆听世界,并与这个世界互动。一旦实现这一目标,下一步将是智能体,也就是你的人工智能不仅应该能够与你交谈,还应该替你指定计划,采取行动。与助理不同的是,智能体系统及其前身(如 GPT-4 语音)以强大但可能会有风险的方式去拥抱混乱。虽然设置了护栏,但 OpenAI 的语音模式受到的限制要比 Apple AI少得多,因此会以意想不到的方式与世界互动。

钝刀还是利刃?

对语音的不同处理方式向我们展示了人工智能的未来,这个未来涉及到在低风险、功能较弱的系统与让用户拥有更多控制和选择的系统之间找到平衡。我认为很多公司都希望鱼与熊掌兼得,但我不确定有没有可能性。他们需要决定给用户提供一把钝刀还是利刃,前者虽然不太有效但也不怎么危险,后者可用于实际工作但存在受伤风险。钝刀不会造成伤害,但好处也少得多。我认为我们需要仔细考虑何时何地选择低风险的方案(如助理),以及我们愿意在何处容忍滥用风险以换取潜在的巨大利益(如智能体)。

这一切都还处于早期阶段,而且是基于我的第一印象,但我认为像 GPT-4o 这样的语音功能会改变大多数人与人工智能系统的交互方式。语音及视觉交互比文本交互更自然,对更广泛的受众更有吸引力。未来肯定有与人工智能对话的一席之地。

译者:boxi。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1