3月17日,OpenAI官方发布了最新的研究论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》,论文作者认为当下的发展趋势中,GPT类大模型逐渐成为一种通用技术,这将会对美国劳动力市场产生深刻的潜在影响,并在论文中探讨了LLM(大型语言模型)对美国不同职业和行业的具体影响。
本文主要对该篇论文的研究结论和研究方法进行翻译和总结,包括结论、数据说明、研究设计三个部分。
1、研究结论
绝大多数职业和从业者将受到GPT冲击:每个职业里至少15%部分的工作量、80%从业者中的19%从业者的工作量可通过GPT完成并能节省50%以上时间。
GPT会影响各个薪资层面:更高工资的工作受到GPT的冲击更大。
需要深度思考的脑力劳动更重要:需要科学和批判性思维这类技能的职业不太可能受到LLM的影响。相反,需要编程和写作技能的职业更容易受到LLM的影响。
高学历工作者更易受到GPT冲击:拥有学士、硕士及更高学位的工作者相对普通人来说更容易受到 GPT 的冲击。
不需要培训或只需实习的职业更易受 GPT 冲击:在职培训时间最长的职业受 GPT 冲击程度最低(薪资水平较较低),不需在职培训或只需实习的工作更容易受 GPT 冲击(薪资水平相对较高)。
与“数据处理、信息处理”深度相关的行业受到GPT影响最大
2、研究设计2.1 数据来源
2.1.1 数据集1:职业、详细工作活动、具体任务
数据集1来源于O*NET数据库,包含:1016种职业(Occupation)、2087项详细工作活动(DWA)、19265个具体任务(Task)。其中,1项详细工作活动(DWA)与1个或多个具体任务(Task)对应。1项具体任务(Task)可以关联多项详细工作活动(DWA)。
2.1.2 数据集2:工资、就业、人口
数据集2来自于美国劳工统计局(BLS)2020、2021年的数据,包含:职业名称、每个职业的工人数量、2031 年职业水平的就业预测、职业准入的教育水平以及获得职业能力所需的在职培训情况。
另外,论文中通过BLS中的当前人口调查数据(CPS),将 O*NET中的任务和工作活动数据集与 BLS 劳动力人口统计数据联系起来,形成了一个截面数据。
2.2 Exposure 度量规则
论文中用Exposure指标来衡量GPTs对工作活动(DWA)和任务(Task)的冲击程度,以此代理GPTs对潜在经济的影响。Exposure指标被定义为:保证完成质量相同的情况下,接入GPT或基于GPT技术的软件是否能够将完成工作活动或完成任务所需的时间缩短至少50%以上。
论文将职业受冲击程度Exposure分为以下三类:
· No Exposure(E0):使用GPT完成一项DWA/Task的时间没有减少或差不多,或是导致完成质量下降。
· Direct Exposure(E1):直接通过ChatGPT/OpenAI接口访问LLM或者GPT-4可以将完成DWA/Task所需的时间减少50%以上。
· LLM+ Exposed (E2):直接访问LLM不会将完成一项DWA/Task所需的时间减少50%以上,但是通过基于LLM开发一个附加软件,使用该软件可以将完成所需的时间减少50%以上。
论文采用了人工和GPT-4两种方式进行注释、分类(两种方式互为补充,结论显得更有说服力)度量Exposure:
1、人工法:首先通过对 O*NET 数据库中的每一个DWA—Tasks进行注释打分,之后进行人为归类到职业(Occupation)级别。
2、GPT-4法:使用早期版本的GPT-4 对工作活动和任务进行注释打分。但是针对的是Tasks—Occupation,而非人工法的DWA—Tasks。在GPT-4法中作者又对Exposure 度量规则进行了轻微的修改以增强与一组人工标注组标签的一致性。完全一致率(Agreement)在表2中给出。
此外,论文通过构建了3个指标α、β 和 ζ,分别衡量低、中、高水平下的 GPT 对各职业的冲击程度:α代表一个职业的Exposure下限;ζ代表一个职业的Exposure上限;β 中对E2的0.5权重意图是度量额外开发部署软件所需的Exposure(这句翻译得不太准)。以下表2为GPT 和人类打分两种方式的一致性和Pearson相关系数情况:
3、研究结论
3.1 Exposure统计指标汇总
表3是人工和GPT-4两种Exposure度量方法得到的数据汇总结果。两种标注方式的结果都表明:𝛼的平均值在0.14左右,这表明在中位数职业里至少15%部分的Task直接暴露给了GPT(用GPT替代人工可节省50%以上时间),巧合的是,所有Tasks中也有15%左右也是直接暴露给了GPTs。
结合β 的平均值,论文作者认为:80%职业的工作者,他们的工作任务中至少有1个task暴露给了GPTs;这些工作者他们当中的19%,工作任务中至少50%以上Tasks被标记暴露给GPT。(0.8*0.19约等于15%)
3.2 工资、就业
3.2.1 经济体间的Exposure密度分布
图3的左右两图分别是不同分位数下的职业—工作任务、工作者—工作任务的Exposure程度分布。两图具有相似的分布,表明GPT的冲击程度与不同职业的工作者之间不存在高度线性相关性。
3.2.2 就业水平与薪资阶层
对于职业层面的结论,见图4的 binscatter图,人工和GPT-4注释的两种方式结果表现出了一定程度的相似性和相关性:
图4中前两个图表明:GPT冲击似乎与就业水平之间没有太大的相关性。两个图表都没有显示出GPT冲击在不同就业水平上的显著差异。
图4中后两个图显示:尽管存在“许多低薪职业的Exposure很高、高薪职业的Exposure很低”的情况,但是binscatter图中的总体趋势表明:高工资受到GPTs 的冲击更大。
3.3 工作技能
作者首先将 O*NET数据库中的“skill-base”11类数据中各类数据对各个职业的重要性分数进行标准化,之后将其与Exposure指标(α,β,ζ)进行回归分析,以检验技能重要性与Exposure程度之间的关联度。
根据表5的回归结果:科学和批判性思维技能的重要性与Exposure强烈负相关,这表明需要这些技能的职业不太可能受到LLM的影响。相反,编程和写作技能与Exposure强烈正相关,这意味着涉及这些技能的职业更容易受到LLM的影响。
注:skill-base 数据样例如下(最新的O*NET 6中没有“编程”这一项,作者应该用的是老数据)
3.4 职业准入门槛
首先,论文研究了不同领域(Job Zone)的工作准入壁垒与Exposure程度的关系,使用的数据为 O*NET 数据库中5个“Job Zone”及对应职位相关信息,结果为图5、表6。从结果上看:从Zone 1 到Zone 4,Exposure逐渐增加,但在Zone 5 则有所减少。并且,50%以上任务受到 GPT 冲击的职业比例(平均百分比)分别为0.00%(Zone 1),6.11%(Zone 2),10.57%(Zone 3),34.5%(Zone 4)和26.45%(Zone 5)。
之后,论文验证了各领域(Job Zone)职业中的教育门槛(学历门槛、在职培训时长,两个变量)与Exposure程度的关系,使用的数据为BLS-Occupation数据集中"Typical Education Needed for Entry" 、 "On-the-job Training Required to Attain Competency"两类。
表7、表10分别是按“在职培训时长”、“准入学历”分类职业的平均Exposure结果。论文作者认为:高学历工作者(持有学士、硕士和更高学位)相对普通人更容易受到 GPT 的冲击。在职培训时间最长的职业受 GPT 冲击程度最低(这类工作的收入水平更低),而不需在职培训或只需实习的工作更容易受 GPT 冲击(工作的收入水平更高)
注:O*NET 数据库中5个“Job Zone”、BLS-Occupation教育数据样例
3.5 职业、行业层面的Exposure
作者整理了最高Exposure的5个职业(这些职业均与“信息、数据处理”任务高度相关)以及Exposure为0的34个职业(几乎都为体力劳动),最后将数据整合到行业层面。下面是具体结果,其中行业层面Exposure的图片来源于东北证券对该论文的解读。
另外,作者认为:近期的生产增长率(包含全要素和劳动力两方面)与Exposure无显著相关性。从散点图上看,不同行业自 2012 年以来的生产力增长率与研究中定义的Exposure没有明显的线性关系,但已经历快速增长的生产性行业与Exposure度之间存在高度相关性。即:如果 LLM 有可能在不同行业之间以不同程度提高生产力,那么高生产力的企业将更有生产力。由于这些行业的生产需求普遍缺乏弹性, 生产率最高的部门在经济投入中所占的比例将缩小。
4、 关于Exposure方法的讨论
为了说明Exposure度量方法的可靠性以及结论的稳健性,作者除了使用GPT-4、人工标注法对比以外,在这一部分又与其他方法进行了比较。作者首先总结了前人在Occupation Exposure方面的度量方法,并将这些研究方法应用于数据集中:
之后,作者将这些方法作为解释变量,在本文中新定义的Exposure规则上分别用GPT-4、人工标注得到的评分数据对这些方法(解释变量)进行基准回归(对比控制Avg.Salary对数值):
可以看到,除了AI大部分数据都是***,说明作者定义的Exposure规则与前人8种度量方法之间存在显著相关性,因此,本篇论文作者实证得到的结论具有一定的可信性。
参考文献
[1] 2023 GPTs are GPTs- An Early Look at the Labor Market Impact potential of LLMhttps://arxiv.org/pdf/2303.10130v1.pdf[2] 东北证券. GPT 将如何影响我们的工作? 2023.03.23