ChatGPT又一次使得人工智能(AI)成为热门话题。
当下的人工智能主要基于神经网络,即利用算法模拟人类的大脑神经元网络,从而模拟人脑的机制来学习、判断、决策。神经网络需要不断通过对数据的学习实现智能。这种学习,依赖大量的样本标注。在人工智能的学习过程中,需要不断有人“教导”AI,对数据贴标签、做记号、标颜色等,教会AI“感知”“思考”和“决策”。
这些标注中,一部分需要专业性知识,比如在医疗AI中,标注员需要把片子中的肿瘤区域标出来,这就需要医生完成。再比如地方方言或外国文字的内容,则需要标注员掌握那门语言。但大多数标注工作是简单的,比如,让AI懂得什么是气球,标注员就需要在一张张含有气球的图片中,圈出气球的位置及气球和背景的分割线;让AI识别汽车,就需要把图中的车都标出来,画框要精确地刚好卡住车。这类AI的能力,高度依赖于这些标注,标注的数据越多,AI就越“聪明”,所以,业内俗称:有多少人工,就有多少智能。
OpenAI、谷歌、Meta和微软的人工智能成果背后,就有无数肯尼亚、乌干达和印度的工人在工作。在中国,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人超千万。2020年人社部发布的16个新职业之一,就包括数据标注师。
高大上的人工智能背后,有无数人在做着简单而重复的工作,以支撑AI运行。这是一种很正常的技术发展与市场形式。现在自然语言处理方面的应用大多是人工+算法的形式,由于技术还尚有欠缺,为了保证用户体验,多用人力辅助,是合理的。
这些工作有自己独特的特征:简单、繁琐、重复。如果专家、程序员这些相对稀缺的人才都投入到这类工作中,就像厨艺高超的厨师不能专注烹制美食,却花大量时间洗碗、择菜。
这种工作不需要专业能力,只需要人的基本智能——能通过背影识别人;只看到沙发上的尾巴与半个身体就知道是猫;即便被车挡住,也知道是红绿灯。这对机器来说很难,但对人来说却是轻而易举。
而这两个特征,使得数据标注师成为一个天然的扶贫项目。
坐落在黄河边上的山西永和县,曾经是国家级贫困县。但这个小县城却有160名某某公司人工智能项目的人工智能训练师。这当中女性员工135人,当了妈妈的占比高达80%。她们上有老下有小,大部分人学历不高,起步阶段员工全部为高中及以下学历。但因为这份特殊的职业,这些大山里的女性,成为了人工智能大潮的一分子。
这160个人,只是整个标注师产业帮扶功能的一部分。“AI+帮扶”的公益模式,通过AI产业释放出大量就业机会,让低收入群众特别是女性实现在家门口就业脱贫,获得经济收入,提升自身地位。在这个基础上,帮助欠发达县域突破资源条件限制,一定程度实现数字化发展。目前,在吕梁山区,已初步形成数字就业产业带。在贵州万山区,首个试点已培训出31名“AI培育师”,其中77%为贫困女性,90%的人原本没有收入来源。
某种程度上,这是这些欠发达地区的妈妈们所能做的最具有互联网红利、乃至AI时代红利的工作。其实任何新技术行业,都有红利。比如对一个西部山区、初中文化的25岁的男青年来说,最接近互联网红利的工作,就是当一个骑手。他获得的红利当然比不上程序员、产品经理,但比起以往的工作却要高出一截。而标注员的待遇与任务量及难度直接相关,熟练工一天能标几千张图片,月收入最高过万。山西永和县大部分年轻劳动力,月收入不超过2000元,但从事标注工作,人均月收入能达到4000元以上。而且标注员可以不离开家乡,既能照顾家人孩子,同时又能享受到人工智能时代的红利。
贵州万山、山西永和等地,仅仅是一个起点,未来会有更多的人工智能项目,把自己的基础放在欠发达地区,让更多的人获得AI红利,帮助落后地区发展。而从另一个意义上说,他们也是新形式的产业工人。更实用的人工智能,甚至需要几代人的积累而成。这就像如今中国成为世界第一大经济体,是历代无数产业工人辛苦工作的结果。多年以后,人们享受更聪明的人工智能的服务时,系统里也有他们的贡献。
(作者系上海金融与法律研究院研究员)
• (本文仅为作者个人观点,不代表本报立场)
刘远举