当前位置:首页|资讯|ChatGPT|AIGC|AI芯片|人工智能

打通自动化、数据策略、数据闭环三重能力,数据标注公司「星尘数据」希望成为中国的Scale AI|项目报道

作者:36氪发布时间:2023-03-22

原标题:打通自动化、数据策略、数据闭环三重能力,数据标注公司「星尘数据」希望成为中国的Scale AI|项目报道

自从去年底,对话式机器人ChatGPT初次惊艳亮相,再到今年国内外大厂罕见地接连投身AI竞赛。大模型、AIGC等人工智能专业词汇,已在一次次的刷屏中人尽皆知。

而在产业链上下游中,随着大算力、大数据的价值得到证明,AI芯片、数据标注等也顺势成为创投热点。

事实上,在ChatGPT走红之前,国内数据标注公司已因自动驾驶需求而受到关注。但在这次AI浪潮中,更多人通过大模型的训练(如监督学习、自监督学习、RLHF等)意识到数据标注和AI智能化之间的关系。

某种程度上,数据标注常被视作"劳动密集型"产业。一般流程是,存在AI训练需求的企业向数据标注公司提出具象的数据需求,后者按照要求提供服务。但这次GPT系列涌现出的智能化能力,让更多产业人士感到,训练所用数据的质量/种类在更深程度上影响着最终效果——这也让众多AI企业提升了对数据标注公司的预期,希望它们承接"执行层面"之外的工作。

在「星尘数据」创始人章磊眼中,数据标注公司早就需要摆脱"客户说什么就干什么的"特点。

章磊早前曾在世界银行、华尔街、硅谷工作10年,也在多家公司担任过首席数据科学家、技术顾问。而当他回国第一次创业,打算打造一款投研机器人时,却发现国内数据标注公司只能机械性满足客户提出的基本标出数据的需求,无法为客户提供更进一步的数据建议。

"比如有一些在我们认知之外的标签,希望数据标注公司帮助一起整理和迭代。同时我也希望数据标注公司能帮助公司挖掘那些更加稀有的数据标签。"章磊表示,但当时的他并未找到能承接这部分需求的厂商。

正因看到这一行业痛点,2017年章磊创办星尘数据,希望为行业提供自动化的标注和进一步的数据策略、数据闭环能力。

自动化是这家公司身上的第一个标签。星尘数据表示,在2018年,星尘就已经开发出自动化标注系统。而在此前,供AI训练的数据的标注以人工为主。

针对自动化,36氪此前介绍过,星尘数据形成了一套完整的质量管控系统。

具体来说,星尘数据的系统首先利用自动化培训考核工具选择上岗人员,并根据考试结果分配相应难度的标注内容。此外,在标注过程中,系统会对已标注的数据进行交叉审核。被标注数据可在用户自定义的标注池、检查池、抽查池中来回流转,保证最终进入完成池的精确度。而除了人工质检,系统还设置算法质检,保障数据服务质量的下限,尽量避免漏题和显而易见的错误。

在标注速度方面,星尘数据利用深度学习的模型辅助标注,降低人工劳动重复率。在标注时,平台的智能识别功能可以对物体边界进行高贴合度的分割,标注者只需要对标注数据进行选点即可框出物体。这一功能能将标注效率提升50%-80%。

基于系统支持,针对客户的个性化需求,星尘数据还开发了自动化报价平台。客户可以根据具体的标注场景上报图形、标注范围等精细化需求。平台会根据需求自动生成价格评估单。

也就是说,作为一家数据标注公司,星尘数据同样将自动化和深度学习用在了自身的工作流程中。

但自动化并不是全部。在章磊看来,数据标注公司更进一步的价值体现在为客户提供数据策略上。

数据策略,也就是为客户提供其各种需求场景下的数据使用建议。

如果分类来看,比较典型的数据策略包括数据平衡、数据增强、人机交互反馈、数据选择、主观性处理等。

也就是说,星尘数据的客户可以使用星尘的自动化标注平台,一起发现并使用合适的数据策略,提升数据使用效果。

针对数据策略,星尘给出了一个例子:在3D融合项目中,根据3D映射和2DOD的算法确认人的结果和算法结果,让人只需要确认低 IoU的对象即可减少30%的标注 effort,提高数交付量和反馈效率。

以及,公司也拿ChatGPT举例问答对生产方式。也就是通过生成式算法生成句子对+专业语言专家制定标准+标注员审核+算法过滤负样例的方式,大浪淘沙式生成精选问答对,并通过算法接入进行实时人机反馈,保障算法最终通过强化学习的方式不断增强效果。

另外,在使用数据策略后,星尘可以和客户一起进行标注-训练-测试-优化-改进-再测试的过程,帮助客户在一次次的测试中找到最优方案。

虽然自动化、数据策略、数据闭环是在不同维度上提升数据标注的效果和速度。但整体来看,星尘数据其实都围绕着"数据需要和模型一起迭代、保证后者效果"的思路设计产品和服务。这其中的每一环,都需要具备深度的数据Know-How。

章磊举例,在数据准备环节,就算仅是数据清洗,也不应该只用规则过滤,还需要长期积累经验才能给出适合各场景的方式。而清洗只是准备数据中的一步,在整个训练过程中,各种细节场景下的数据使用Know-How千差万别。

当前,星尘数据已在各个场景中积累出经验。拿自动驾驶举例,由于行业当前缺少统一规范,每家车厂都可能属于不同算法流派,有着不同判断规则。同一个车厂、算法公司在不同的项目中,算法的要求可能也不同,所以仅在自动驾驶中"星尘的数据标注规则就有200页的文档。"章磊表示。

从整体类型上,公司可标注点云、视频、音频、图像和文本等数据,应用于自动驾驶、安防、消防场景、医疗等领域。

当自动化平台加上数据策略和数据闭环,章磊觉得星尘数据可以承担数据专家的角色,提升客户的训练效果。在这种产品和服务模式下,星尘数据的客单价也常高出同行报价。但在章磊看来,如果企业使用了效果不好的平台,同时也无法通过合适的数据迭代算法,那么带来的金额损失很可能比采购高价值的产品、服务要高。

当前,自动驾驶标注占据了星尘数据如今收入的大部分。这是已在全球范围内被证明的趋势——在美国,数据标注独角兽Scale AI也发家于自动驾驶行业。

章磊认为,星尘数据和Scale AI在业务模式、团队背景上均存在不少相似之处。但大洋两岸的企业服务环境和投资人特点存在差异,使得国内数据标注难以突破。

另一方面,他也相信随着大模型等领域的进展,愈发多的人会意识到数据标注行业真正的趋势所在,"最近很多投资人都来和我讨论最新的模型进展、Paper细节等。"章磊认为,至少那个需要科普数据标注含义的时代,已经一去不复返了。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1