发力数据标注服务，Uber也想成为AI圈的“卖水人”

作者：三易生活发布时间：2024-12-19

要说这一轮AI浪潮中的最大赢家，显然非英伟达莫属。自2022年年末OpenAI发布ChatGPT以来，英伟达的市值就上涨了近5倍，甚至超越苹果成为了全球最值钱的公司。眼看着英伟达如今能够让OpenAI、Meta、xAI等一众AI厂商排队交钱，也就使得越来越多的公司想成为此次AI淘金热中的“卖水人”。

但由于英伟达的GPU以及CUDA生态护城河太深，就连老对手AMD都难以逾越，所以直接抢英伟达的生意无疑难如登天，因此更多的厂商就盯上了AI产业链的其他环节。日前以共享出行闻名的Uber方面宣布，将面向外部开放原仅供内部使用的Scaled Solotions人工数据标注服务。

与此同时有消息源透露，Uber本月在美国、加拿大、印度、波兰、尼加拉瓜等国与独立承包商签约，将通过承包商来为当地提供来自Scaled Solotions的付费人工数据标注任务。显而易见，Uber方面这是准备作为“总包”，在全球范围内组织一支数字零工队伍、来专门从事数据标注。

事实上，数据标注是将各种图片、文本、视频等数据集打上标签，是其成为二进制计算机可以理解、识别的工作，此前这个工作在2007年主要是由程序员来负责完成。可是将金贵的程序员用于数据标注无异于暴殄天物，以至于建立在大数据基础上的深度学习在2007年之前一直都不成气候。

而数据标注的变革发生在2007年，计算机科学家李飞飞在这一年创建了ImageNet数据集，并通过亚马逊众包平台雇佣了167个国家共计5万人，来给10亿张图片筛选、排序、打标签。ImageNet的出现也标志着AI行业转向了由数据驱动的范式，深度学习也由此成为AI行业的显学。

ImageNet的成功之处就在于解放了程序员，使得完成了基础教育的任何人都可以承担数字标注这个工作。事实上，数据标注并不复杂，比如给定一张图片，让你来标出图片中的行人、车辆、建筑等元素，或是给一段语音要求你判断说话人的语气，这种工作基本完成了九年义务教育的人都能轻松胜任。

也正是因为门槛低，所以从某种意义上来说，数字标注从业者的工作是对着电脑屏幕、根据AI开发者给定的规则为数据打上各式各样的标注，与流水线上工人干的活没什么区别，属于非常典型的“赛博搬砖”。尽管“赛博搬砖”看起来与充满科技感的AI格格不入，但确实很赚钱。

就在今年夏季，专注于为AI厂商提供数据标注服务的Scale AI，完成了由硅谷顶级基金Accel领投的F轮融资，估值达到了138亿美元。而这家公司的一长串投资者更是星光熠熠，其中包括英伟达、亚马逊、Meta、AMD、高通、思科、英特尔。要知道，如今与OpenAI齐名的Anthropic的估值也只有180亿美元，所以给AI厂商“打杂”的Scale AI其实要远比外界想象的更有前景。

数据标注很赚钱的原因也很简单，因为在现有技术条件下，它不是第二产业、而是第三产业。尽管市面上确实有Doccano、SuperAnnotate等自动化工具，但AI大模型训练需要的高质量、高精度数据，这些自动化工具有力未逮，所以只能依靠人工。那么问题就来了，既然Scale AI的珠玉在前，又为何只有Uber跟风，其他互联网大厂怎么没有行动起来呢？

尽管数据标注确实没有技术门槛，只要想做，从OpenAI到Meta、再到谷歌，这些大厂建立数据标注业务线可谓是易如反掌。但恰恰是因为数据标注没什么门槛，所以属于劳动密集型产业，真正的难点是数据的获取以及数据的分发，也就是从哪里获得数据，再将数据标注工作分发到合适的人手里。

作为专注于共享出行和外卖的互联网大厂，Uber手上掌握的行车数据、地理位置数据都相当有价值，如若不然，自动驾驶公司Aurora Innovation、LBS AR游戏开发商Niantic也就不会与Uber合作，使用Scaled Solotions的服务了。同时Uber又是一家跨国巨头，他们早在2015年就已覆盖58个国家和地区，时至今日更是几乎遍及全球。

而共享出行、外卖行业的特殊性，也意味着Uber在全球各地都需要借助供应商来获得司机、骑手资源，在这一过程中，就必然会与各个供应商保持联系。因此借助全球各地“地头蛇”的力量，Uber可以将数据标注做到更高的性价比。

所以在既有资源、又有关系的情况下，Uber的数据标注服务又怎有不成功的道理。

本文来自微信公众号“三易生活”，作者：三易菌，36氪经授权发布。