BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发

作者：机器之能发布时间：2023-11-16

哈佛 GPT-4 OpenAI 大语言模型

机器之能报道

编辑：吴昕

比尔·盖茨说 GenAI 将彻底变革人类知识工作，但终归是一个预测。

经验层面，没有人真正了解最先进的大型语言模型（如 GPT-4）的全部功能。没有人真正知道使用它们的最佳方法，或者它们在什么条件下会失败。我们手里没有使用手册。

在某些任务上，GenAI 非常强大，但在其他任务上又会或完全或微妙地失败。除非经常使用 GenAI，否则你都搞不清楚自己遇到的到底是哪种情况。

最近，OpenAI 总裁 Greg Brockman 转发了一项被顶尖咨询公司波士顿咨询集团（ BCG ）称为「史无前例」的实证研究，从经验层面证实了 GPT-4 对人类知识工作的真正影响。

「很多人一直在问 AI 是否真的对未来工作很重要。有篇新论文强烈表明答案是肯定的。」他写道。

Greg Brockman 转发的是一篇发表在 SSRN 上的工作论文 Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ，由一支多学科的科研团队撰写，包括来自顶尖商学院的教授，比如宾夕法尼亚大学沃顿商学院、哈佛大学商学院、华威大学商学院以及 MIT 斯隆管理学院等。

研究团队调研采访了顶尖咨询公司波士顿咨询集团（ BCG ）的 758 名咨询顾问（约占集团咨询人员总数的 7%），试图找到 GPT-4 这类大型语言模型如何影响复杂、知识密集型任务表现的真凭实据。

结果发现，使用 GPT-4 的咨询师的业绩在各个维度（数量、速度和质量）上，都比没有使用工具的咨询师的表现好得多。

仍然是一篇新的工作论文，因此可能存在错误或错误并且该论文尚未经过同行评审，发表在了SSRN。

论文作者之一沃顿商学院教授 Ethan Molick 也在自己的博客上介绍了这篇研究。

参与者被分为两组：一小组被要求想象他们在一家鞋业公司工作，他们的经理要求他们开发一种新产品并在会议上展示。该小组的参与者还被要求完成其他几项行动，包括列出从推介到发布的步骤列表、创建营销口号以及撰写一篇 2,500 字的文章，描述开发鞋子的端到端流程和经验教训。

不难看出，无论是产品构思（「针对服务不足的市场或运动提出至少 10 个新鞋创意。」）、分析（「根据用户细分鞋类行业市场。」）还是写作和营销任务（「起草一份新闻稿发布你的产品的营销文案。」）等，都属于 GPT-4 能力范围内的任务。

而另一组则被要求解决业务问题，任务被设计得足够复杂，以至于 GPT-4 在解决它时会出错，因此它显然超出了 GPT-4 的能力边界。

在这两组中，研究参与者被分为三种情况：无法使用 AI、可以使用 GPT-4 AI 以及可以使用 GPT-4 AI 并了解如何使用 GPT。

一、能力边界之内

研究发现，针对「 GPT-4 能力范围内」的咨询业务，使用了 GPT-4 的组别工作表现显著提高（平均完成的任务多了 12.2%，完成任务的速度提高了 25.1%），完成质量也更高（与对照组相比，质量提高了 40% 以上）。作者指出，GPT-4 工具的影响非常显著。

蓝色组表示没有使用GPT-4 ，绿色组和红色组均使用GenAI，其中红色组接受了一些关于如何使用GenAI的额外培训。三组成员在具体咨询任务中的表现结果就像三颗牙齿，对比强烈。

从上述效果图来看，使用GPT-4 与否（蓝色牙齿代表没有使用、绿色和红色的牙齿部分代表使用）在最终效果呈现上，如同三颗牙齿，参差不齐，Ethan Molick 称之为 GenAI 的「锯齿状前沿」。

虚线代表同等难度的咨询任务，蓝色线条代表AI的能力边界，在这条边界内的任务，AI可以完成的很好；落在蓝色之外的任务，AI 就力所不逮了。不过，蓝色曲线本身也是变化不居的，例如，当 GPT-4 在 3 月份首次发布时，它非常擅长正确识别素数，准确率高达 98%。但到了 7 月，仅仅几个月后，同样的测试得出的准确率只有 2%。

这也是研究人员第一次清楚勾勒出 GenAI 能力边界（上图蓝色曲线）——落在这条曲线（边界）内的任务，都是GPT-4 擅长并能辅助人类做得更好的；面对边界之外的任务，GPT-4 爱莫能助。

这一发现也是这篇研究的重要贡献之一。在此之前，人们对这道边界的感知还是混沌的或者说是主观想象的。

比如，同样是创作诗歌，GPT-4 可以写出不错的十四行诗（类似莎士比亚十四行诗）但却无法创作一首好的 50 个字的诗歌，为什么？现在清楚了——两个任务看似差不多，却正好落在边界的不同两侧——前者在能力边界之内，后者在边界之外。

这也解释了一些意想不到的任务 (如创意生成）对 GenAI 来说很容易，而诸如数学这类任务却构成挑战。

Ethan Molick 总结说，发现拥有 GPT-4 顾问的表现明显更好，无论我们是否首先向他们简要介绍 GenAI（图中的红色部分）。而且，每个纬度的表现——时间、数量和质量——都是如此。

有趣的是，研究人员还使用人类和 AI 两个评分系统对任务质量进行评分，结果「英雄所见略同」（如下面两个图所示）。

总共有54条线，因为有 18个咨询任务，每个任务又分别对应3个回归模型：使用AI（绿色）、未使用（蓝色）、使用而且获得了培训（红色）。Y轴记录了相应得分（人类根据具体效果打分），可以清楚看到红色的优势。

和上图的区别在于,这里任务表现评分是机器人打的。

除了上述内容，研究人员还发现了一些其他有趣的东西，比如 GPT-4 还起到了技能水平调节器的作用。

当评估得分最差的顾问开始使用 GPT-4 时，他们的表现提升幅度最大，达到 43%。得分高于平均水平的优秀顾问在使用工具后，表现仍然有所提升，只不过增幅不是很大。总体而言，GPT-4 可以增强不同水平的顾问的业务表现。

绿色的条形图报告他们在评估任务中的表现，而蓝色的条形图表示他们在实验任务中的表现。y轴表示平均值分数(1-10分)。当评估得分最差的顾问开始使用GenAI时，他们的表现涨幅最大，达到 43%。评估得分高于平均水平的顾问，在使用AI工具后，表现仍然有所提升，当然幅度并没有那么大。

Ethan Molick 认为，还没有足够多的人考虑过，当一项技术能将所有员工业务表现提升到顶尖水平时将意味着什么。

「这可能就像过去矿工采掘矿石，能力和水平有高有低，直到蒸汽铲诞生，一举抹平个人能力上的差异。AI 虽然还没有到那种程度，但提升知识生产者整体业务水平将产生重大影响。」

二、能力边界之外

接下来移步 GenAI 能力边界之外，又会发生什么呢？

为此，BCG 精心设计了一项任务，以确保 GenAI 无法得出正确答案。这个设计并不容易，正如论文中所说，「很难在前沿边界之外的实验中设计一项任务，让人类始终胜过 AI。」

不过，他们还是确定了一项利用 AI 盲点的任务。三组被试被要求想象在一家拥有三个品牌的公司工作，手上也有虚构公司的财务数据和采访记录，他们的任务是向公司CEO 写一份 500 到 750 字的备忘录，向老板解释应该投资哪些品牌来增加收入，并建议 CEO 采取创新行动来改进所选品牌。

结果，没有工具帮助的人类顾问在 84% 的情况下解决了问题，使用 AI 的顾问的表现却更糟——只有60-70% 的情况下解决问题。使用 GPT-4 的参与者的表现明显比对照组差——约 23%。

GPT-4 不仅不能帮助人类完成这项任务，而且实际上会严重损害人类的表现，这又是一个重大发现。

此图显示边界外任务的平均表现。红组反而倒数第一，之前倒数的蓝组反而成了第一。这与甩手掌柜情况有关。

那么，到底发生了什么？

Ethan Molick 提到了一篇研究过分依赖 AI 结果适得其反的研究 Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters 。该研究发现，使用高质量 AI 的招聘人员变得懒惰、粗心，而且判断能力也较差。与使用低质量 AI 或者不用 AI 的招聘人员相比，他们错过了一些优秀的申请人，并做出了更糟糕的决定。

论文称，当 AI 非常优秀的时候，人类会关闭大脑并遵循 AI 的建议，而这更有可能是错误的。

Ethan Molick 指出，针对落在 GenAI 边界之外的任务，咨询顾问也乐得「甩手掌柜」，也会导致类似的后果——事实上，那些使用 GPT-4 的顾问比那些不允许使用 GPT-4 顾问得到的答案更不准确（但他们仍然比不使用 GenAI 的顾问做得更好）。

这表明，高技能脑力劳动者仍然需要继续验证 AI，发挥「在使用 AI 时的认知努力和专家判断」，而不是盲目地采用 AI 输出。

三、半人马和赛博格

综上，如果要像试验中的许多顾问在前沿内、外任务上都做得很好——避免 AI 陷阱，又充分发挥了其所长——就要注意 GenAI 能力边界，「知人善用」。

在能力边界内，人类给 GenAI 带来的价值非常小，但在能力边界外，人类在没有 GenAI 的情况下工作可以提高性能。

这份研究表明，在人类与 GenAI 融合的一系列过程中，人类成功使用 GenAI 的方式出现了两种独特的模式。

一组顾问充当「半人马」，就像神话中的半马/半人生物一样，将他们的解决方案创建活动划分并委托给 GenAI 或他们自己。比如，你将决定采用什么统计技术，然后让 GenAI 处理生成图表。

在这份 BCG 的研究中，针对 GenAI 非常擅长的任务中，需要最少的人类参与。半人马会做他们最擅长的工作，然后将锯齿状边界内的任务交给 GenAI 。

另一组顾问的行为更像是「赛博格（半机器人）」，将他们的任务流程与 GenAI 完全集成，并不断与技术交互。你不只是委派任务，而是将自己的努力与 GenAI 交织在一起，在锯齿状的边界上来回移动。

使用 AI 起草文档就是一个典型例子，先启动一个句子让 GenAI 完成，这样你就会发现自己在与 GenAI 协同工作。

四、在前沿边界上起舞

无论关于 GenAI 的本质和未来的哲学之争进展如何，技术本身已经对我们的实际工作方式产生了强大的颠覆性。这不是一项需要打着「五年内改变世界、需要大量投资」的旗号大肆宣传的新技术——它就在这里，现在。

精英顾问用来增强工作的工具，和每位正在阅读这篇博文的读者的工具，完全相同。他们使用的工具很快就会比你可以使用的工具差得多，因为技术前沿不仅是锯齿状，而且在不断扩大。明年至少有两家公司会发布比 GPT-4 更强大的模型，我对此很有信心。锯齿状的前沿正在往前推进，我们必须为此做好准备。

即使撇开这种说法可能引起的任何焦虑，也要注意 GenAI 的缺点。人们在使用 AI 时，可能真的会「甩手掌柜」，没有注意到它的错误。而且，与其他研究一样，我们还发现，GenAI 的输出虽然质量高于人类，但在总体上也有同质化倾向。这就是为什么半机械人和半人马的合作方式很重要——它们允许人类与 GenAI 合作，产生比单独依靠任何一方更多样、更好、更正确的结果。成为其中一员并不难，只要在工作任务中使用足够多的 GenAI，你就会开始看到这条锯齿状边界，并开始了解它们在哪些方面好到可怕......以及它的不足之处。

在我看来，问题不再是 GenAI 是否会重塑工作，而是我们想要它意味着什么。我们可以选择如何使用 GenAI 来帮助使工作更有效率、更有趣、更有意义。但我们必须尽快做出这些选择，这样我们才能开始以合乎道德和有价值的方式积极使用它，就像机器人和半人马一样，而不仅仅被动地对技术变革做出反应。与此同时，这条锯齿状的前沿也总是变动不居，不断开疆扩土。

论文传送门：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

参考链接

https://www.bcg.com/publications/2023/how-people-create-and-destroy-value-with-gen-aihttps://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jaggedhttps://fortune.com/2023/10/06/generative-ai-chatgpt-collaboration-bcg/https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-can-boost-highly-skilled-workers-productivity

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com