在数字时代,数据标注逐渐成为人工智能产业的背后英雄。它是许多先进技术的基石,从自动驾驶到语音识别,都离不开它的支撑。
近日,娱乐资本论·视智未来专访了成都的汇众天智总经理骆靖元。汇众天智成立于2017年,是一家数字化服务提供商,为客户提供数据采集、标注、审核、验收等一站式服务。视智未来与骆靖元探讨了该行业相关的热门话题。从招聘背后的学历要求到行业内部的激烈竞争,从大模型的发展趋势到数据标注行业的兴衰变迁,这次的对话为我们揭开了一个鲜为人知的数据标注领域的面纱。
---以下为采访实录---
关于员工
视智未来:你们招人对学历要求高吗?
汇众天智总经理骆靖元(下同):
如果从全行业来判断的话,不太高,但是你从业务上判断的话。AIGC标注业务的公司基本一半是本科生。
大模型要有易用性,这要求标注员判断内容的时候,要有知识储备,逻辑判断能力。整体说标注工作挺无聊的,所以流失率比较高。
视智未来:新闻写宝妈是主流。
三年前、四年前可能这种还行,现在没法保证质量和效率,很少了。现在人工智能火后招人不用科普了,2017年京东的标注业务叫智能客服。
视智未来:今年2月GPT爆火,对你们影响大吗?
刚开始订单多了一些,可能整个社会都需要一个梦想,资本也需要炒冷饭。那时大公司的目的更多是为了割韭菜炒股价。后来大公司发现变现难,七八月份就很少在数据标注上投入了。实际上,我们订单量没有猛增,雷声大雨点小。
视智未来:做大模型不需要多做数据标注吗?
他靠以前原有的那些数据也能做大模型,如果市场反馈好再接着投钱,不好就不玩了。
这也说明了为什么AIGC出来的时候,数据标注业务没怎么增长,是因为他们并没有花钱来做这件事,而是找了国外现成的数据。
视智未来:你们现在竞争激烈吗?
激烈,公司有定期筛选的机制,比如说这批我需要10家公司。那我就从100个里面筛选,其中哪两三个不合适,我再动态替换。这使得一些公司不断报低价,恶性循环。
视智未来:你们接到的项目多是文本、图片吗?
图像、文本、语音三大类都会有,看团队更擅长什么。图片的话自动驾驶方面比较多。视频标注是抽帧成图片的形式做,应用在舆情监控方面。
关于行业
视智未来:你是怎么入行的呢?
我以前在京东做智能客服,后来回家乡出来单干了。
视智未来:从业多年,你有什么感受吗?
我们同事常说,当看到应用落地的时候,还是比较欣慰的事情。虽然工资低,但终归是做了点有用的事情。
视智未来:这几年行业变化大吗?
政府侧推动效果也不是特别理想。数据标注行业2015 、2016火,2017年开始热度下降。
像百度做了语音采集,高德、讯飞会再做一遍。算法都没变,标注都是新瓶装旧酒,同样一批人脸识别的图片,A公司做完B公司做,之后C公司再做,我们始终是在给别人做嫁衣。但这样的日子也好景不长,如今订单量变少,人员迅速增加后又会有断档期,大部分公司死在了断档期里。
视智未来:那能做数据中间商赚钱吗?
一个是数据属于客户,另外虽然说的是 100 张图,但不是同一批人的。
视智未来:你们的壁垒在哪里?
地域优势,人员成本其实不算高。管理能力,执行水平。数据保密的技术处理上。此外,我们有行业认可的学标组身份。
视智未来:你们行业为什么越来越卷呢?
门槛低是最直接的问题。
视智未来:你怎么看待行业发展呢?
人工智能的产品会越来越多,行业越来越好的时候,也会越来越透明,越来越卷。