~~~雅各布专栏——专注行业第一品牌商业模式研究~~~
来源:Jake M. Hofman
Daniel G. Goldstein
David M. Rothschild
摘要:生成式人工智能对经济、社会和工作的潜在影响呈现两极分化的趋势,从技术革命带来的积极好处到末日景象不一而足。作者将这一问题视为光谱上的点,并创建了一个体育运动类比来帮助思考这一问题:人工智能工具可以是类固醇,也可以是运动鞋,还可以是教练,每种工具都代表了人类用户与技术之间的不同关系。类固醇能提升短期表现,但长期来看会让你的表现更糟;相反,人工智能驱动的工具可以用来增强人们的技能,提高他们的工作效率--就像一双好的跑步运动鞋;在最理想的情况下,人工智能驱动的工具可以像教练一样提高人们自身的能力。这个框架可以用来帮助我们构思如何制作基于人工智能的工具,以增强而不是削弱人类的能力。
与许多新技术一样,生成式人工智能对社会的潜在影响也是两极分化的,有人担心这项技术会取代人类工作者,从而导致大规模的非熟练化和普遍失业。也有人希望,生成式人工智能将为人类能力增添新的动力,使个人和集体的创新与生产力得到前所未有的提升。在微软研究院利用人工智能增强人类认知和决策能力的工作中,我们将这些情况视为光谱上的点,并创建了一个体育比喻来帮助思考:人工智能工具可以从类固醇、运动鞋到教练,每一种都代表了人类用户与技术之间的不同关系。
让我们从类固醇开始,它是这个光谱中最不理想的一点,类固醇能提升短期表现,但长期来看却会让你的表现更糟。举个例子,想象一下一个学生,他的家庭作业是阅读并评论一段文字,该学生可以使用大型语言模型 (LLM) 作为兴奋剂,只需将该段落的文本放入 ChatGPT 或任何类似的工具中,提示它生成这样的评论,然后将输出结果传回给老师。这样做虽然能让学生在瞬间完成作业,但从长远来看,却违背了练习的初衷。学生不仅可能无法从作业中学到知识,还可能永远无法(或慢慢丧失)用清晰的文字批注一段话和表达自己想法的能力。就像体育运动一样,为实现短期目标而走捷径,从长远来看会对其他目标产生负面影响。
在这中间,人工智能驱动的工具可以用来增强人们的技能,提高他们的工作效率,这就是我们认为的好的跑步运动鞋。就像耐克的碳底鞋能让跑步者的速度平均提高 4-5% 一样,一些人工智能工具能在当下提升人们的工作表现,而不会带来降低工人技能的长期负面影响。例如,LLM 在翻译、重新格式化和注释非结构化文本方面特别有用,可以为知识工作者节省大量时间和精力。试想一下,分析师在进行一项国际调查时,需要用 20 种不同的语言对自由格式文本进行回复,LLM 可以大大减少将这些回复翻译成一种通用语言、对其进行正面或负面情感评分以及提取关键主题所需的时间。与提高性能的运动鞋类似,在这种情况下,人工智能可以加快分析师的即时能力,同时仍然允许他们应用人类的判断力、好奇心和创造力。
在最理想的情况下,人工智能驱动的工具可以像教练一样提高人们自身的能力。例如,一名 IT 专业人员正在学习如何通过一个新的、复杂系统的认证测试,经过系统文档培训的 LLM 可以在该专业人员提高能力时交互生成练习题,并在教授高级概念时提供个性化反馈。最终,这将帮助专业人员扩展他们对主题的理解,并开发出新的技能,而这些技能的持续时间将超出使用人工智能驱动的辅导员所花费的时间。
我们自己的研究也显示了学习新数学概念的类似好处。在我们进行的一项随机在线实验中,我们发现,让人们在练习标准化测试问题时获得基于 LLM 的解释,可以显著提高他们以后自行解决类似测试问题的能力,就像体育教练一样,人工智能教学工具有可能为成绩带来短期和长期的好处。
虽然我们认为运动能力和认知能力之间的这些相似之处很贴切,但这两个领域之间存在着重要的差异。在体育运动中,类固醇、运动鞋和教练这三种关系都是截然不同的,而在人工智能驱动的工具方面,它们的关系就不那么明显了,其中许多都是相同底层技术的微小变化。因此,我们在如何设计和使用这些工具方面所做的选择会使它们从光谱的一端转向另一端。同样,我们制定的规范以及我们的优先事项如何随着时间的推移而演变,也将在决定我们如何、何时以及为何使用人工智能驱动的工具方面发挥至关重要的作用。
设计选择很重要
首先,从设计的角度来看,我们在设计人工智能工具时所做出的看似无关紧要的选择会对其效果产生重大影响。就拿拼写检查这个有点平凡的例子来说吧,大多数拼写检查程序不会在你输入时自动修正单词而不提供反馈。相反,它们会提供提示,指出可能存在的拼写错误,并提供一个机会,让你不仅更正所写的内容,还能直观地看到正确的拼写。这一小小的选择将拼写检查从一种 "兴奋剂 "转变为更多的 "教练",它在改进你的最终产品的同时,还能帮助你从错误(或拼写错误)中吸取教训。
通过有意识地思考如何设计人工智能工具,我们可以最大限度地减少或避免有害的长期影响。例如,我们最近的实验表明,与拼写和语法检查类似,简单的基于置信度的突出显示可以帮助人们发现并纠正基于 LLM 的搜索工具所产生的捏造或 "幻觉"。我们的想法是,如果我们能向人们展示 LLM 生成的回复中哪些信息可能不太可靠,我们就能帮助他们发现并纠正潜在的错误,这样既能提高工作效率,又能保持必要的提示,让人们认知到基于 LLM 的回复可能会在哪些方面出错。通过深思熟虑的设计,我们可以开发出帮助人们完成工作的辅助驾驶员。
规范将会出现
其次,我们需要制定一些标准,用于思考何时以及如何使用人工智能驱动的工具。计算器是另一个历史类比,我们很难反对银行家使用计算器计算复利,但同样也很难反对给学习基本加法的小学生提供计算器。正如我们在如何以及何时使用过去的技术创新方面已经形成了这些规范一样,我们认为人工智能工具也会出现同样的情况:同样的工具在某些情况下可能被认为是有益的,但在另一些情况下则可能是有害的。我们还预计这些规范会随着时间的推移而改变。
例如,过去实体图书馆是查找信息和引文的黄金标准,但随着搜索引擎质量和覆盖范围的提高,以及我们发出有效查询并找到正确结果的能力的增强,网络已成为越来越可靠和公认的信息来源。我们相信,随着底层技术和我们使用能力的共同发展,人工智能驱动的工具也会发生同样的转变。与此同时,企业需要考虑员工过度依赖最新工具的后果:只有一种解决问题的方法是一个弱点。在工作场所,企业领导者有责任制定规范和预期,说明什么时候适合(什么时候不适合)人工智能工具,并确保以负责任和合乎道德的方式使用这些工具。
优先级将不断变化
这些分类都不是简单明了的,每个人和每个行业都会有细微差别,考虑一下拼写和算术的价值随着时间的推移是如何变化的。如上所述,过去,能够进行长除法运算或在没有辅助的情况下拼写晦涩难懂的单词是受人珍视和尊重的才能,但现在它们在很大程度上被视为古老而深奥的技能。据推测,这是因为大多数人在需要时都能使用可靠的计算器或拼写检查工具,从而使人们曾一度担心的 "类固醇 "问题变得不再那么令人担忧,这就为人们腾出了时间,用于发展其他技能。简而言之,我们决定让某些技能萎缩,从而专注于发展其他技能。
随着人工智能工具的发展,我们预计社会所重视和优先考虑的技能也会发生类似的变化,人们将以不同的方式利用时间,并将学习投入到新的领域。例如,随着生成式人工智能工具的发展,其自动生成代码的准确性越来越高,工程师们可以专注于更高层次的系统设计和架构,因此特定编程语言的详细语法知识可能会变得不那么受重视。随着某些技能变得不那么重要,而新的技能成为优先事项,公司应积极提供培训,确保员工始终掌握最相关、最有价值的技能。
我们希望,我们在这里提供的类固醇、运动鞋和教练框架将有助于我们思考这些问题,并就工作和生活中的人工智能工具提出关键问题。在整合人工智能的过程中,我们面临的挑战是如何设计出能够增强而不是削弱人类能力的工具,通过用心设计和深思熟虑地考虑何时以及如何应用这些工具,并允许这些优先事项随着我们与这些工具的共同发展而变化,我们就有机会塑造一个人工智能增强人类能力的未来。