送餐机器人、分拣快递机器人、自动驾驶汽车……人工智能在我们的生活中无处不在。不过,人工智能的最终效果,并非天生,也需要“老师”来教。
“老师”是谁?怎么教的?8月7日上午,在位于蜀山区的安徽数据堂科技有限公司(以下简称安徽数据堂),宽敞明亮的办公室里坐满了工作人员,他们目光紧盯电脑屏幕一丝不苟地对数据进行标注。他们,就是人工智能的“老师”——数据标注员。
数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据标注员,被称为“人工智能(AI)背后的人”,是随着人工智能的发展而出现的一个新兴职业。2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录,包含数据标注员、人工智能算法测试员两个工种。
数据标注员,让AI更“懂”世界
每个人工智能机器人的诞生,都像一个婴儿一样,需要有人教它各种知识,去认识这个世界。它学到的知识越精确,就越能知道世界是什么,万物是什么。比如,无人驾驶机器人,需要有人提前将一些大树等障碍物的图片信息标注好,输入给它。清晰准确的告诉它“什么是大树”,下次它才会自动躲避。
“数据标注是机器感知现实世界的起点,是大部分人工智能有效运行的关键环节。”安徽数据堂项目中心负责人王章帅说,简单来说,数据标注是对语音、图片、文本、视频等数据进行特征标签,将非结构化的数据转变为机器可识别的结构化数据。
这些图片信息或者语言信息,都是数据标注员提前标注好的,就像老师写“教案”一样。机器人学习后,才能变得聪明、智能。
“蜀山区依托科技创新,推动人工智能技术的迅猛发展,带来了大量AI算法的训练需求,这推动了数据标注产业的快速增长,人工智能训练师的规模也由此快速增长。”王章帅说。
多元化需求,挖掘新的潜力
随着人工智能行业发展,越来越多的公司和企业需要大量的高质量数据作为支撑,数据标注行业是个朝阳行业,前景广阔。
据了解,在求职就业市场,数据标注员从业人员行业入职门槛其实并不高,但涉及专业领域,则对从业者的学历提出高要求。“00”后李凯旋便是数据标注行业中的一员,已在安徽数据堂工作了三年。
在不断学习中,李凯旋逐渐加深了对这份工作的理解:“要‘教会’人工智能,首先要把知识转化成它能消化和吸收的‘语言’。你可以把数据想象成AI的‘燃料’,对采集回来的原始数据进行加工、标注的过程就可以提取出一些数据信息。比如,在采集大量的语音数据后,AI数据标注师会对语音进行标注,提取特征,将特征‘喂’给人工智能模型,那么模型算法相当于总结了之前人工标注出的信息,并找出通用规律,那这个人工智能模型就具备了人脑才有的认知和判断能力。”
数据标注员需要了解不同应用行业的背景知识,根据不同项目特点作出不同标注。人们生活中常见的智能音箱、语音助手、网络客服、人脸识别等产品的背后,都有人工智能训练师的身影。“面对多元化的人工智能需求,要不断学习新规则提供定制服务。虽然有挑战,但看到人工智能产品越来越聪明,人们的生活变得更加便捷和舒适,我找到了工作的价值所在”李凯旋说。
产业蓬勃发展,前景可期
数据标注行业流行着一句话,“有多少智能,就有多少人工。”目前,蜀山区已吸引了数十家人工智能领域企业,拥有近万名人工智能数据标注员,服务于医疗、教育、自动驾驶、新零售等场景。
安徽数据堂总部在北京,成立于2010年,是一家面向支撑人工智能产业发展,专业从事人工智能基础数据服务的企业。经过十余年积累,已形成了数据多模态采集、自动处理、质量评测、安全计算的全链条核心技术体系及服务平台。
2018年,王章帅加入到安徽数据堂,负责数据标注业务。他从标注、质检、审核、培训师,成长为项目中心负责人,经历了数据标注全部管理流程。王章帅说:“目前为止,人工智能的发展还远远未到高峰,所以数据标注行业依然处于一个蓬勃发展的时期。未来,随着人工智能的不断发展,数据标注可能将从劳动密集型产业转向技术型产业。”
近年来,蜀山区抢抓人工智能产业发展机遇,全力培育开放、创新、活跃的人工智能发展生态,充分发挥比较优势,持续擦亮“数字新园区”金字招牌,打造以安徽智能软件园为核心区,辐射涵盖网达产业园、联东U谷等周边园区的“一核多园”产业布局;依托中贝通信等龙头企业进行产业链招商,带动上下游协同发展,一批行业领先项目落地蜀山区。目前,蜀山区集聚软件相关企业超300家,2023年全年营收超200亿元。(刘影影 刘亚萍)