文/观察者网 张广凯
具备高度智能的ChatGPT,能否正确运用自己海量的知识,却要取决于一群时薪不到2美元的肯尼亚劳工。
他们所做的工作——数据标注,不仅是ChatGPT能够领先竞争对手的重要原因,也有着重要的伦理意义。数据标注师们自己的价值观,同样决定了人工智能的价值观,决定了AI能否被善意地运用。
在百度智能云数据标注基地业务产品负责人胡驰看来,人工标注将是大模型训练中绝对无法被替代的一部分。
而对于中国大模型企业来说,这项严重依赖劳动力个人素质的工作,或许也是独特的竞争优势所在。
近日,百度在中文大模型的数据标注产业建设上迈出重要一步。
100%本科学历,百度数据标注卷到新高度
日前,位于海口市秀英区的百度智能云(海口)人工智能基础数据产业基地正式启动运营,这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心。
百度智能云海口人工智能基础数据产业基地
百度智能云大模型数据标注师董志焕介绍到:”我们的主要工作就是对大模型生成的内容进行评价、反馈,通过这些人工标注数据,让大模型学习人类的思维方式,从而使大模型更加聪明。”
当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。以ChatGPT、文心一言为代表的生成式AI,不仅需要海量的数据训练,更需要人工标注、指令微调、基于人类反馈的强化学习(RLHF),才能够让大模型与人类价值观、思维方式不断对齐,使大模型更加可用。
为此,百度智能云升级了大模型数据服务能力,建设了国内首个专业大模型数据标注基地。
截至目前,百度智能云已经在全国与各地政府合作,共建了十多个数据标注基地,累计为当地提供超过1.1万个稳定就业岗位,间接带动5万人就业。
但是相比于传统的数据标注,语言类大模型对劳动者技能提出了更高的要求。海口数据标注基地现拥有数百名专职大模型数据标注师,标注师的本科率达到100%。
“和传统的数据标注师要求不同,大模型标注师都需要本科以上学历,我觉得主要是因为大模型数据涉及的知识面很广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。在入职的前两个月,公司会对我们进行集体培训和考核,通过考核后才能正式上岗。”百度智能云大模型数据标注师王洁玉说。
标注师刘小莹毕业于一所普通本科学院的汉语国际教育专业。她对观察者网表示,自己的专业原本就业方向较窄,就业压力大,而大模型标注产业却刚刚倾向于招收汉语言、新闻传播等专业毕业生,为自己提供了新的就业方向。
海口市秀英区委常委、常务副区长石晟屹表示:“海口人工智能技术数据产业基地的落成,最大的价值是在人才集约、产业集聚等方面有重要的引领作用。在不到一年的时间,基地已经带动近千人的大学生就业,对培育本地的数字经济人才做出了突出贡献。同时,引入百度这样的科技企业,将持续带动数字产业化项目落地,也会为传统产业的转型升级带来新的战略契机和发展机会。”
百度智能云海口人工智能基础数据产业基地 作业区
不只靠堆人力,中国数据标注如何精耕细作?
尽管数据标注听上去是一个依赖简单重复劳动的工作,但是一旦深入工作细节便会发现,它同样需要很高的技术含量。
事实上,以Scale AI为代表,海外已经诞生了一些数据标注行业的独角兽公司。2022年,Scale AI营收达到2.9亿美元,毛利率更是高达70%。
Scale AI不仅仅在使用非洲等地的廉价人力资源,同样还招聘了数十名博士,来应对各行业的专业数据。数据标注质量,是Scale AI为OpenAI等大模型企业提供的最大价值。
百度也正在全面提升中文大模型的标注质量。
刘小莹向观察者网介绍,除了自己负责的第一道标注工序之外,层层审核也是保证标注质量的重要环节。在数据标注公司内部,有资深标注师对所有标注数据进行全面复核,而百度自己也有庞大的审核团队,最终把握数据质量。涉及到专业领域知识时,也有相关行业专家提供支持。
据了解,百度智能云沉淀了多领域专家资源,针对来自不同行业的数据服务需求,百度智能云可快速搭建专家团队,对特定领域的任务提供监督微调和强化训练数据,保证数据交付质量,目前已覆盖计算机、法律、医疗等领域。
此外,百度智能云还组建了专业的数据咨询团队,从前期的数据收集、数据清洗,再到数据管理、数据回流,可为企业提供全流程的咨询服务,帮助企业在智能化转型过程中少走弯路。
百度自研的高效标注系统,则进一步提升了数据标注效率。
胡驰表示,为提高数据标注的质量和效率,百度智能云自主研发了业内领先的大模型数据标注平台,支持从大模型微调、强化学习到模型评估的数据生产闭环。在人工标注之前,平台会首先进行自动化的预审核,对数据的行业特征进行分类,确保数据交到更合适的审核员手上。
结合平台独有的人机协同标注、多轮智能审核等智能化工具,百度可大幅提升数据标注的产能和质量,同时帮助企业实现降本增效。
数据安全也始终是重中之重。胡驰表示,百度智能云不仅可提供高安全性的端到端数据服务,标注平台还支持私有部署,通过与基地资源联动,为客户提供多样化的数据安全方案。
“大模型标注基地重点要评估三大指标:高效标注工具、高端人才梯队、高级别数据安全,只有三管齐下,才能为大模型提供好的数据。”胡驰说。
随着数据标注基地等“智能新基建”的建设,百度“千帆大模型平台”将更好地向社会提供服务。
据悉,百度智能云将在9月全面升级大模型服务。8月,百度智能云宣布,千帆大模型平台升级,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在内的33个国内外最主流的大模型,成为国内拥有大模型最多的平台。
(文中刘小莹为化名)