ChatGPT到底都被投喂了些什么？

作者：摩登AI发布时间：2023-05-23

ChatGPT

大模型已成兵家必争之地。

训练模型，最关键的环节之一是投喂数据。

那么训练AI的数据由谁提供，AI成长的养分，又从何而来？

在东西竞跑之下，迭代大模型是核心根本，而标注中文数据，同等重要。

作者 | 三石

编辑 | 聂风

海量数据投喂出的AI

使用英文和其他语言的ChatGPT时，体验有差别吗？

有，ChatGPT英文确实比其他语言表现更好。

这种差异除了ChatGPT英文在使用过程中受到的训练更多，同时也要归功于模型创建时期的资料投喂。

2020年，OpenAI在投喂海量数据、更接近人脑的超大基础模型GPT-3模型上持续提升，终于在2022年11月，ChatGPT诞生。

ChatGPT足够智能，是因为它的核心任务是将一个文本进行合理性延续，即根据已有的文本，生成一个符合上下文背景和书写习惯的合理内容。

因此，前期的海量资料投喂与模型训练才是其后期使用过程中最大的差异原因。

据悉，ChatGPT的大模型数据主要来自以下几方面：

维基百科：ChatGPT使用了英文版维基百科的数据，包含了超过640万篇文章，超过40亿个词。

书籍：ChatGPT使用了ProjectGutenberg和BookCorpus的数据，包含了超过10万本书籍，超过20亿个词。

期刊：ChatGPT使用了PubMedCentral和arXiv的数据，包含了超过100万篇期刊文章，超过10亿个词。

Reddit链接：社交媒体网站Reddit上的各种帖子和评论，包含了用户之间的对话和互动。ChatGPT使用了Reddit的数据，包含了超过18亿条链接和评论，超过100亿个词。

CommonCrawl：包含超过31亿个网页内容，超过4100亿个词。

其他数据集：ChatGPT使用了GitHub的代码仓库、WebText2的新闻文章、OpenSubtitles的电影字幕等数据。

从ChatGPT资源投喂上可以看出，ChatGPT获得了更多的英文数据，大模型训练时，也更多地使用英文，而非中文。

所以，在现实使用过程中，ChatGPT英文将比中文反应更快，更智能。反过来，中国大厂创建的人工智能大模型，中文版应比英文版反应更快，更智能。

据悉，目前中国大厂创建的人工智能大模型，数据投喂资源主要分为三类：

公开数据集，如中文维基百科、中文新闻语料库、中文问答语料库等；自有数据集，这些数据集是由各个大厂自行收集、整理、标注的，包括用户行为数据、搜索引擎数据、社交媒体数据、电商平台数据等；合作数据集，这些数据集是由各个大厂与其他机构或组织合作获取的，包括政府部门数据、行业协会数据、科研机构数据等。

一个人工智能大模型的创建，不仅需要超高的运算能力，也需要海量数据投喂和大量的数据标注员。

赛博流水线上的民工

人工智能为什么需要数据标注员？

在人工智能大模型投入海量的数据后，还需要像人一样，辨别、理解这些数据，才能成长，成熟，而这个过程离不开数据标注员。

对于人工智能而言，有标签的数据才是有用的数据。

例如人脸识别，人工智能本身不会识别物体，只有当人脸关键点被一一标注之后，计算机才能建立起对人脸的认知。

对数据进行标注是人工智能的一个必须过程。

可以说，数据标注员就是人工智能的老师，帮助人工智能成长。那么，数据标注员每天都如何调校人工智能呢？

数据标注员身上的标签是“互联网民工”、“赛博流水线”。他们每天的日常工作，就是坐在一间如同初代网吧的屋子里，每天对着电脑划拉鼠标几千次。不停地对海量数据进行清洗、分类、画框、注释、标记等操作。

他们将大量的文字、语音、图像打上标记，例如“眼珠”、“四川话”、“绿化带”等。只有被标注过的数据，才能被人工智能模型识别，训练出它的分辨能力。

例如标记道路图片，标注道路图片上的物体名称、颜色等信息。业内人士称这种工作位“拉框”。

他们或许并不明白“什么是人工智能”，但却实实在在是人工智能的老师。

2021年版的《人工智能训练师国家职业技能标准》中，对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力；空间感、色觉正常”，普遍受教育程度写的是“初中毕业”。

这意味着，标注员是一份几乎没有门槛的职业。

美国《时代》杂志曾发表过一份调查，OpenAI为训练ChatGPT使用了非洲肯尼亚外包劳工。

据悉，肯尼亚首都内罗毕有30多名ChatGPT的数据标注员，他们每天工作9个小时，阅读150-200段文字。

标注员需要从这些文字中标注出包含性、暴力与仇恨言论的内容，由于每天阅读大量极具冲击力的文字，有人会连续做噩梦。

欠发达地区的标注员不在少数。肯尼亚、乌干达和印度，有不少人是谷歌、Meta和微软等硅谷企业的数据标注员。

这些数据标注员的实得工资约为每小时1.32美元至2美元。这在当地已经算得上中产收入，所以数据标注员虽然会因工作而做噩梦，但他们并没有讨厌这份工作。

而在BOSS直聘等招聘网站上，数字标注员的公司月工资大都在3K-5K，岗位要求在大专及以上学历，专业不限。在贵州、西安等地的县城里，数据标注员的工资仅仅过千。

人工智能快速成长的背后，数据标注员像一群卑微的工蚁，默默地搬运着过冬的食物。

即将被取代的老师

中国的数据标注公司主要分为两类，一是人工智能公司内部的标注公司，二是商务流程外包公司。

大厂内部标注公司有京东的京东众智，百度的百度众测，网易的网易有数，阿里的阿里数据标注、腾讯的腾讯数据标注，这些大厂都已经拥有自己的标注平台和工具。

其他新兴的国内数据标注公司，有龙猫数据、Testin云测、倍赛BasicFinder、数据堂等，这些公司都具有相当的规模。

截至2021年初，数据标注企业分布的top5城市是：北京185家，上海84家，成都68家，深圳63家，杭州46家。

这5个城市都是人工智能技术发展和应用的重要区域，拥有大量的需求方和合作伙伴，同时拥有较为完善的政策支持和产业环境。

此外，新疆和田、山西太原、山东济南、河北保定、安徽合肥等地的数据标注产业都在不断成长。

贵州是全国首个大数据综合试验区，而惠水县百鸟河数字小镇也则是贵州首个县级大数据产业园区。

目前，百鸟河数字小镇已培育了迦太利华、金百合、黔南即富、梦动科技、金信大数据等重点企业。

其中，贵州梦动科技员工超过500人，其中的一半人，是附近盛华职业学院的学生。该公司曾入选2020全国数据标注公司排行榜前10强。

郑成安是一名大三在校学生，目前在梦动科技实习，公司全职员工只有十多人，管理层大都是学校里的老师，对他而言上课就是上班，老师就是经理。

郑成安出身农村，上高职前没碰过电脑，现在凭借电脑前的兼职，一个月能拿到1500元以上的收入，他感到非常满足。

有时候，他为了多挣一些生活费，碰上紧急的项目，会主动加班。但郑成安很清楚，标注员的工作很难一直做下去。

2022年6月，美国加州圣马特奥县的特斯拉办公室，200员工被裁员，其中大多数都是数据标注员。

裁员背后，是因为特斯拉正在研发计算机Dojo，采用自监督学习技术，用于训练人工智能模型，对数据标注的需求正越来越低。

不仅如此，国内腾讯、阿里、字节跳动等一众大厂都在研发自监督学习技术。

可以说，随着人工智能的不断成长，数据标注员的工作，也变得岌岌可危。这些曾经教会了人工智能“思考”的人，同样正面临被人工智能取代的风险。

近期资讯

Python包管理不再头疼：uv工具快速上手

Python 包管理生态中存在多种工具，如 pip、pip-tools、poetry、conda 等，各自具备一定功能。而今天介绍的uv 是 Astral 公司推出的一款基于 Rust 编写的 Py

databook 2024-12-27

解决 Airtest 启动 APP 自动翻转屏幕问题的三种方法

在 Android 平台上，使用 Airtest 启动应用时，可能会遇到一个问题：即便应用启动前已经将手机屏幕方向锁定，使用 Airtest 启动应用时，屏幕仍然会自动翻转。这通常是由于设备的重力感应

pycode 2024-12-27

Android U WMS : 近期任务动画(1)

工作中，我处理过各种窗口动画异常，其中，以近期任务动画异常最为复杂。数月前，意外得到一次机会，公司愿意给我一个星

大胃粥 2024-12-27

Solid.js 最新官方文档翻译（11）—— Effects

Solid.js，一个比 React 更 react 的框架。每一个使用 React 的同学，你可以不使用，但不应该不了解。我同时搭建了 Solid.js 最新的中文文档站点：https://soli

冴羽 2024-12-27

分布式锁详解，谈谈分布式锁的高可用

分布式锁的主要目的是确保在多进程或服务实例之间对某个资源的互斥访问，以防止数据不一致或竞争条件的发生。

Serena 2024-12-27

被美敦力收购，Fortimedix“柔性技术”获FDA批准，发力腹腔镜机器人

动脉网出品

动脉网 2024-12-28

uniapp使用vue3jsx封装弹窗组件的思考

前言在做程序的时候发现了一种现象，页面上需要多个弹窗依次弹出，于是就开始了引用多个弹窗定义多个isShow的情况，于是我这边就在思考有没有一种封装能够动态的渲染我需要的组件呢于是考虑了jsx的灵活

猩球中的木子 2024-12-27

“玄学”珠宝，拿捏焦虑的年轻人

2024致富密码：相信的力量

刺猬公社 2024-12-28

深入Go错误处理：提升代码健壮性的实用技巧

Go 设计的错误就是值，错误处理就是值比较后作的决策。业务逻辑需要忽略错误，否则不要去忽视错误。这种设计理论上会让编程人员有意识的处理每一个错误，让程序更加健壮。

蔡蔡蔡云原生Go 2024-12-27

“胖东来的风”吹到了广州，永辉调改店员工月薪6千起

永辉“学习胖东来”调改店3店同开。

时代财经 2024-12-28

ChatGPT到底都被投喂了些什么？

海量数据投喂出的AI

赛博流水线上的民工

即将被取代的老师

推荐体验

相关资讯

SDXL到底是个什么东西？我有一些自己的看法

喜忧参半，关于Sora到底会给人类带来什么的一些思考

CHATGPT，你的深度学习究竟学了些什么？

为什么这么些说免费chatgpt的能存在？

到底什么是ChatGPT?有什么用?|小智AI

近期资讯

Python包管理不再头疼：uv工具快速上手

解决 Airtest 启动 APP 自动翻转屏幕问题的三种方法

Android U WMS : 近期任务动画(1)

Solid.js 最新官方文档翻译（11）—— Effects

分布式锁详解，谈谈分布式锁的高可用

被美敦力收购，Fortimedix“柔性技术”获FDA批准，发力腹腔镜机器人

uniapp使用vue3jsx封装弹窗组件的思考

“玄学”珠宝，拿捏焦虑的年轻人

深入Go错误处理：提升代码健壮性的实用技巧

“胖东来的风”吹到了广州，永辉调改店员工月薪6千起

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响