当前位置:首页|资讯

聊天机器人陷阱:人工智能需要新的UI

作者:神译局发布时间:2024-12-26

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:AI技术日新月异。谁也说不准未来的AI操作界面会怎样。但以史为鉴,这个未来绝不会是不够直观的聊天机器人界面。AI需要自己的原生体验。文章来自编译。

我常说,本人相信生成式人工智能是重大技术变革,至少跟智能手机一样重大。之所以这么说,是因为智能手机已经无处不在——是很多人醒来看到的第一件和入睡前看到的最后一件东西。

但我做这种比较还有其他原因。比方说:iPhone 刚推出那时候,移动浏览器的流量激增,各大公司都在采取措施应对。对于大多数公司来说,这意味着要做“m.google.com”、“m.facebook.com”——要把采用现有桌面格式的页面适配垂直纵横比。

虽然花了近十年时间,但最终我们还是弄清楚了何谓“原生”移动体验。为了实现这一目标,我们得发明全新的交互模式:手指一捏一合表示缩放、下拉去刷新、滑动向前。我们最后开发出 Instagram、Uber 以及 Strava 等应用——在桌面优先的世界里,这些产品根本不可能存在。

现如今,关于AI 界面,我们正处在类似的转折点。不过我们的做法不是将桌面网站塞进手机屏幕,而是将 AI 功能强加进聊天窗口。就像“m.facebook.com”未能抓住移动设备真正潜力,属于一种妥协一样,无处不在的聊天机器人界面也在阻碍 AI 发挥变革力量。

目前,感觉我遇到的“人工智能”产品 95% 都将聊天机器人集成进现有的 SaaS 应用——不过实际上,这个数字应该跟 5% 更接近。

对话的认知成本

要想理解为什么聊天机器人界面往往是错误选择的,看请其基本局限性。最明显一点:这会给用户带来认知负担。

想象一张包含不同 AI 功能的图表,衡量的两个维度:“能产生多大影响/价值?”,“有效使用该功能会多烧脑?”理想情况下,你希望工具影响够大,同时又几乎不需要主动思考。就大语言模型( LLM )而言,影响很大,但使用的认知负荷也很高。

想象一下用 ChatGPT 生成一些代码(不是用花哨的 AI 代码编辑器)。其输出有一个需要修复的错误。在用聊天机器人界面的情况下,你得:

  1. 将整个文档复制(或生成)进聊天

  2. 解释你要修复的错误(或者你想变更的代码行)

  3. 等待整个文档重新生成

  4. 翻看变更的内容

  5. 确认没有其他内容被无意修改或产生幻觉

  6. 将结果复制回代码编辑器

这……本来该是一次很简单的编辑,却要做这么多工作。如果你反复调整代码或尝试让 ChatGPT 帮你调试,这可能意味着你得一次次检查看有没有幻觉或绕开“... the rest of the code here ...”这种问题。

对于新用户来说,还有可用性的问题(或缺乏可用性)。目前,对新的 LLM ,我大致知道对它的预期是什么,但不是每个人都知道。挑战不仅在于聊天机器人是通用的——还在于它们几乎没给用户提供任何关于其能力或局限性的线索。如果没有明确的 UI 指示,用户只能猜什么是可能的,什么是不可能的。

我尤其欣赏 Amelia Wattenberger 的说法:

好的工具会让人清楚知道应该怎么用。更重要的是,知道不该怎么用。说到好手套,我们马上就会明白应该如何用它们。因为它们是手的形状!我们知道把它们戴在手上。而具体的材料会告诉我们更多信息:金属网手套用于防止物理伤害,橡胶手套用于防止化学伤害,皮手套用来开摩托车看起来会很酷。

不妨对比一下典型的聊天界面。我们收到的唯一线索是应该在文本框输入的字符。而这个界面跟 Google 搜索框、登录表单以及信用卡字段看起来没什么两样。

幸运的是,计算机界面已经有 50 年的历史了,而我们找到了解决这个问题的方法也有40年了。

直接操纵:40 年前的解决方案

为了帮助更好理解为什么聊天机器人的用户体验存在问题,我想讨论一个 20 世纪 80 年代的概念:直接操作界面。四十多年前由 Ben Schneiderman 提出,这些界面具有以下几个关键特征:

  • 连续的对象表示:用户可以在屏幕上看到可以与之交互的对象的视觉表示。

  • 物理操作:用户不需要使用复杂的语法或命令,而是可以通过单击、拖动或捏合等物理动作与对象进行交互。

  • 快速、增量及可逆的操作:用户可以快速执行操作、立即查看结果,并轻松撤消或修改其操作。

  • 即时反馈:用户操作的效果立即显示在屏幕上,即时确认结果。

在当今世界,这意味着诸如拖放、调整窗口大小、音量滑块、捏合缩放等交互。听起来似乎稀松平常,但如果没有明确发明出来,这些就不会存在。

我们仍在开发鼓励用新方式直接操作的软件。比方说,Figma 让画布的每个对象都可选择,并拖动控键和滑块时更新属性。你可以全身心地投入到正在设计的媒体上。

类似地,Notion 采用了“块”这个核心概念,并用它来创建有形的、可塑的文档。你可以拖动块来重新组织不同的部分,或转换成不同的输出类型。

目前许多人工智能界面所面临的挑战是忽视了上述原则。哪些命令行得通并不明显。变更往往是要么全改完要么一点都不动,而不是渐进性的。反馈不可预测且经常延迟。而且动作不容易撤销。

需要明确的是,我这里不是建议要完全放弃掉自然语言交互这种方式。相反,我们需要在对话与直接操作之间找到适当的平衡。有时候,你想讨论文档的结构;有时候,你只想改写一句话。

一个关键洞察,不同的任务需要不同的交互模型。正如 Figma 用直接操作进行视觉设计,但仍然为高级用户保留命令面板一样,AI 界面需要精心融合多种交互模式以及对内容进行抽象的手段。

调整抽象的层次

为了探索如何超越聊天机器人这种界面,我们可以研究不同交互模型在实践中是如何协同的。以AI增强的代码编辑器Cursor为例,它展示了不同的抽象层面如何在一个界面下共存的:

  • 在最低的层面,cursor提供了逐字符的代码补全。这几乎没有什么认知负担——没有上下文切换,无需构思提示词,也不会打断你的工作流。

  • 在更高一个抽象层面,他们有内嵌的代码生成功能。在需要编写新函数或组件时,你可以用自然语言描述想要的内容,并直接在需要的位置生成。其关键在于,结果以“差异”(diff)形式呈现——你可以准确地看到新增或修改的部分,并逐一接受变更。

  • 在最高抽象层面,他们提供了侧边栏对话框,可用于处理更复杂的任务,比方说分析架构或调试问题。但即便在这里,界面也不仅仅是一个通用的聊天机器人。AI能理解代码库的上下文,可以引用特定文件和函数,并提出可以直接预览和应用的变更建议。

重要的是,这些不仅是不一样的界面——更是针对不同任务规模的合适界面。在自动补全变量名称时,你不需要靠聊天对话解决;但要理解一个复杂算法时,你可能确实需要跟机器聊。

而且确保所有变更都由一个经过微调的模型筛选,来生成差异,这意味着无论代码建议来自哪里,都可以通过统一的界面进行审查和接受变更。

这种“层次化的抽象”模式可应用的地方远不止代码编辑器。想象如果人工智能写作工具应用类似原则的话:

  • 字符级建议,用于文案编辑和改写

  • 句子级分析,关注论据和清晰度

  • 段落级建议,优化主题和逻辑流

  • 文档级反馈,评估结构和主旨

  • 所有变更均以具体、可逆的差异对比形式呈现

Maggie Appleton 在探索AI写作工具的潜力方面进行了出色的探索。假设ChatGPT可以在各种编辑“角色”之间切换会怎样?或者如果开发一个工具对收集证据或强化论点的过程进行结构化又如何呢?

超越聊天机器人时代

好消息是,我们已经开始看到新型AI产品取得了实际进展。Shortwave,一款AI驱动的邮件客户端,通过按钮、快捷键以及基于上下文的建议,将AI操作深度整合到其用户界面中。而Cove,一个用于AI协作的可视化工作空间,正在赋予AI直接进行操作的能力。

我对基础模型开发者原生地引入这些想法也持乐观态度。比方说,ChatGPT新的Canvas功能如今就提供了更好的直接操作方式,并基于你是在写代码还是写文字提供了不同的专用工具。其快速操作菜单尤其是一个极佳的案例,从中可以看出如果我们针对具体使用场景利用大语言模型的力量能取得什么样的成果。

我坚信,AI界面的未来不会是是更好的聊天机器人,AI界面的未来要看精心设计、面向特定领域的工具,这些工具能让AI的能力更直观、可操作。实现这一目标需要设计师和工程师们共同学习与成长。

产品设计师必须超越聊天机器人的范式,思考如何为特定用户量身定制AI能力。当我们仍在摸索AI能做什么,且技术不断演变时,这项任务会极具挑战性。如何为下个月可能出现的新功能设计界面?从用户体验的角度看,一个拥有更多自主AI的世界会是什么样的呢?

工程师们也面临着自己的挑战。开发这些新界面需要熟悉新兴的AI技术栈——包括思考防护措施、检索增强生成(RAG)管道、缓解幻觉问题、流式响应等。

正如我们从m.google.com转型到Instagram和Uber一样,我们正处在从通用聊天界面向AI原生体验转型的关键节点。未来的这些体验究竟是什么样子,时间会给出答案,但前进的方向已经清晰:我们需要设计能让AI的力量更加直观、易用、并可直接操作的界面。

译者:boxi。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1