文|林炜鑫
编辑|邓咏仪
当下,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素,也将使大模型与人类价值观、思维方式不断对齐,更加可用。
近日36氪了解到,位于海口市秀英区的百度智能云(海口)人工智能基础数据产业基地正式启动运营,这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心,未来将为各行各业提供大模型数据服务。
百度智能云海口人工智能基础数据产业基地
百度智能云数据标注基地业务产品负责人胡驰表示,为提高数据标注的质量和效率,百度智能云自主研发了大模型数据标注平台,支持从大模型微调、强化学习到模型评估的数据生产闭环。结合平台独有的人机协同标注、多轮智能审核等智能化工具,可大幅提升数据标注的产能和质量,同时帮助企业实现降本增效。
为保障数据标注质量,百度智能云还搭建了全流程数据服务人才梯队。海口数据标注基地现拥有数百名专职大模型数据标注师,标注师的本科率达到100%。
“和传统的数据标注师要求不同,大模型标注师都需要本科以上学历,我觉得主要是因为大模型数据涉及的知识面很广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。在入职的前两个月,公司会对我们进行集体培训和考核,通过考核后才能正式上岗。”百度智能云大模型数据标注师王洁玉说。
据了解,百度智能云沉淀了多领域专家资源,针对来自不同行业的数据服务需求,百度智能云可快速搭建专家团队,对特定领域的任务提供监督微调和强化训练数据,保证数据交付质量,目前已覆盖计算机、法律、医疗等领域。
百度智能云海口人工智能基础数据产业基地作业区
此外,百度智能云还组建了专业的数据咨询团队,从前期的数据收集、数据清洗,再到数据管理、数据回流,可为企业提供全流程的咨询服务,帮助企业在智能化转型过程中少走弯路。
数据安全始终是重中之重。胡驰表示,百度智能云不仅可提供高安全性的端到端数据服务,标注平台还支持私有部署,通过与基地资源联动,为客户提供多样化的数据安全方案。
“大模型标注基地重点要评估三大指标:高效标注工具、高端人才梯队、高级别数据安全,只有三管齐下,才能为大模型提供好的数据。”胡驰说。
海口市秀英区委常委、常务副区长石晟屹表示,海口人工智能技术数据产业基地的落成,在不到一年的时间,已经带动近千人的大学生就业,对培育本地的数字经济人才做出了突出贡献。在未来三到五年,基地新增就业有望突破5000人规模。
据悉,百度智能云在全国已与各地政府合作共建十余个数据标注基地,累计为各区域提供超过11000个稳定就业岗位,间接带动50000人就业,培育数万名AI数据人才,同时吸引孵化优质企业超200家。
除了落地十余个数据标注基地,解决大数据问题之外,百度智能云在阳泉、福州、天津、济南、沈阳等地建设了多个智算中心,解决大模型所需的算力问题。
百度智能云方面表示,这些分布在全国各地的“智能新基建”,已经将强大的AI能力凝聚在“千帆大模型平台”上,目的就是帮助企业一站式的解决大模型开发和应用过程中面临的所有问题。
百度阳泉智算中心
今年8月,百度智能云宣布,千帆大模型平台升级,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在内的33个国内外最主流的大模型,成为国内拥有大模型最多的平台。据了解,百度智能云将在9月全面升级大模型服务。