大模型已成兵家必争之地。
训练模型,最关键的环节之一是投喂数据。
那么训练AI的数据由谁提供,AI成长的养分,又从何而来?
在东西竞跑之下,迭代大模型是核心根本,而标注中文数据,同等重要。
作者 | 三石
编辑 | 聂风
使用英文和其他语言的ChatGPT时,体验有差别吗?
有,ChatGPT英文确实比其他语言表现更好。
这种差异除了ChatGPT英文在使用过程中受到的训练更多,同时也要归功于模型创建时期的资料投喂。
2020年,OpenAI在投喂海量数据、更接近人脑的超大基础模型GPT-3模型上持续提升,终于在2022年11月,ChatGPT诞生。
ChatGPT足够智能,是因为它的核心任务是将一个文本进行合理性延续,即根据已有的文本,生成一个符合上下文背景和书写习惯的合理内容。
因此,前期的海量资料投喂与模型训练才是其后期使用过程中最大的差异原因。
据悉,ChatGPT的大模型数据主要来自以下几方面:
维基百科:ChatGPT使用了英文版维基百科的数据,包含了超过640万篇文章,超过40亿个词。
书籍:ChatGPT使用了ProjectGutenberg和BookCorpus的数据,包含了超过10万本书籍,超过20亿个词。
期刊:ChatGPT使用了PubMedCentral和arXiv的数据,包含了超过100万篇期刊文章,超过10亿个词。
Reddit链接:社交媒体网站Reddit上的各种帖子和评论,包含了用户之间的对话和互动。ChatGPT使用了Reddit的数据,包含了超过18亿条链接和评论,超过100亿个词。
CommonCrawl:包含超过31亿个网页内容,超过4100亿个词。
其他数据集:ChatGPT使用了GitHub的代码仓库、WebText2的新闻文章、OpenSubtitles的电影字幕等数据。
从ChatGPT资源投喂上可以看出,ChatGPT获得了更多的英文数据,大模型训练时,也更多地使用英文,而非中文。
所以,在现实使用过程中,ChatGPT英文将比中文反应更快,更智能。反过来,中国大厂创建的人工智能大模型,中文版应比英文版反应更快,更智能。
据悉,目前中国大厂创建的人工智能大模型,数据投喂资源主要分为三类:
公开数据集,如中文维基百科、中文新闻语料库、中文问答语料库等;自有数据集,这些数据集是由各个大厂自行收集、整理、标注的,包括用户行为数据、搜索引擎数据、社交媒体数据、电商平台数据等;合作数据集,这些数据集是由各个大厂与其他机构或组织合作获取的,包括政府部门数据、行业协会数据、科研机构数据等。
一个人工智能大模型的创建,不仅需要超高的运算能力,也需要海量数据投喂和大量的数据标注员。
人工智能为什么需要数据标注员?
在人工智能大模型投入海量的数据后,还需要像人一样,辨别、理解这些数据,才能成长,成熟,而这个过程离不开数据标注员。
对于人工智能而言,有标签的数据才是有用的数据。
例如人脸识别,人工智能本身不会识别物体,只有当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。
对数据进行标注是人工智能的一个必须过程。
可以说,数据标注员就是人工智能的老师,帮助人工智能成长。那么,数据标注员每天都如何调校人工智能呢?
数据标注员身上的标签是“互联网民工”、“赛博流水线”。他们每天的日常工作,就是坐在一间如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。不停地对海量数据进行清洗、分类、画框、注释、标记等操作。
他们将大量的文字、语音、图像打上标记,例如“眼珠”、“四川话”、“绿化带”等。只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。
例如标记道路图片,标注道路图片上的物体名称、颜色等信息。业内人士称这种工作位“拉框”。
他们或许并不明白“什么是人工智能”,但却实实在在是人工智能的老师。
2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。
这意味着,标注员是一份几乎没有门槛的职业。
美国《时代》杂志曾发表过一份调查,OpenAI为训练ChatGPT使用了非洲肯尼亚外包劳工。
据悉,肯尼亚首都内罗毕有30多名ChatGPT的数据标注员,他们每天工作9个小时,阅读150-200段文字。
标注员需要从这些文字中标注出包含性、暴力与仇恨言论的内容,由于每天阅读大量极具冲击力的文字,有人会连续做噩梦。
欠发达地区的标注员不在少数。肯尼亚、乌干达和印度,有不少人是谷歌、Meta和微软等硅谷企业的数据标注员。
这些数据标注员的实得工资约为每小时1.32美元至2美元。这在当地已经算得上中产收入,所以数据标注员虽然会因工作而做噩梦,但他们并没有讨厌这份工作。
而在BOSS直聘等招聘网站上,数字标注员的公司月工资大都在3K-5K,岗位要求在大专及以上学历,专业不限。在贵州、西安等地的县城里,数据标注员的工资仅仅过千。
人工智能快速成长的背后,数据标注员像一群卑微的工蚁,默默地搬运着过冬的食物。
中国的数据标注公司主要分为两类,一是人工智能公司内部的标注公司,二是商务流程外包公司。
大厂内部标注公司有京东的京东众智,百度的百度众测,网易的网易有数,阿里的阿里数据标注、腾讯的腾讯数据标注,这些大厂都已经拥有自己的标注平台和工具。
其他新兴的国内数据标注公司,有龙猫数据、Testin云测、倍赛BasicFinder、数据堂等,这些公司都具有相当的规模。
截至2021年初,数据标注企业分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。
这5个城市都是人工智能技术发展和应用的重要区域,拥有大量的需求方和合作伙伴,同时拥有较为完善的政策支持和产业环境。
此外,新疆和田、山西太原、山东济南、河北保定、安徽合肥等地的数据标注产业都在不断成长。
贵州是全国首个大数据综合试验区,而惠水县百鸟河数字小镇也则是贵州首个县级大数据产业园区。
目前,百鸟河数字小镇已培育了迦太利华、金百合、黔南即富、梦动科技、金信大数据等重点企业。
其中,贵州梦动科技员工超过500人,其中的一半人,是附近盛华职业学院的学生。该公司曾入选2020全国数据标注公司排行榜前10强。
郑成安是一名大三在校学生,目前在梦动科技实习,公司全职员工只有十多人,管理层大都是学校里的老师,对他而言上课就是上班,老师就是经理。
郑成安出身农村,上高职前没碰过电脑,现在凭借电脑前的兼职,一个月能拿到1500元以上的收入,他感到非常满足。
有时候,他为了多挣一些生活费,碰上紧急的项目,会主动加班。但郑成安很清楚,标注员的工作很难一直做下去。
2022年6月,美国加州圣马特奥县的特斯拉办公室,200员工被裁员,其中大多数都是数据标注员。
裁员背后,是因为特斯拉正在研发计算机Dojo,采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。
不仅如此,国内腾讯、阿里、字节跳动等一众大厂都在研发自监督学习技术。
可以说,随着人工智能的不断成长,数据标注员的工作,也变得岌岌可危。这些曾经教会了人工智能“思考”的人,同样正面临被人工智能取代的风险。