AI 繁荣的背面，硅谷巨头正在“侵吞”你的数据；超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

作者：巴比特资讯发布时间：2024-04-16

文章来源：有新Newin

图片来源：由无界AI生成

近日，外媒报道了 OpenAI 在开发最新模型遇到困难，研究人员通过 Whisper 语音模型转录了超 100 万小时的 Youtube 视频来训练 GPT-4 模型。

据悉，一些 OpenAI 员工讨论此举可能违反 YouTube 的规则，因为 Google 旗下的 YouTube 禁止将其视频用于“独立”于 Youtube 平台的第三方 App。尽管存在这种担忧，OpenAI 团队最终转录了超过 100 万小时的 YouTube 视频，而这项工作包括了 OpenAI 总裁 Greg Brockman 的直接参与，他亲自帮助收集了这些视频。

此外，OpenAI 在 2021 年就已经耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物，并在那时就已经用数据训练了模型，这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

调查显示，为了获取这些数据，包括 OpenAI、Google 以及 Meta 在内的科技公司纷纷走捷径，无视公司政策，并讨论违反法律。例如，Meta 公司的经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以获取长篇作品的可能性，他们还决定从互联网上收集受版权保护的数据，即使这意味着面临诉讼风险。

YouTube 于上周四表示，如果 OpenAI 在未经许可的情况下使用其视频来开发人工智能视频生成器 Sora，将违反 YouTube 的规则。YouTube CEO Neal Mohan 在接受彭博社采访时表示，Google 可能已经使用 YouTube 数据来训练其旗舰对话 AI 模型 Gemini，以符合其与内容创作者签订的许可合同，而 OpenAI CTO Mira Murati 3 月在接受采访时表示她不知道 Sora 是否接受过 YouTube 视频训练。

理论物理学家 Jared Kaplan 在 2020 年发表的一篇具有开创性的论文强调了大量数据对训练 LLM 性能的重要性。OpenAI 和其他公司正在探索如何使用两个不同的 AI 模型合作生成更有用、更可靠的合成数据，以克服数据短缺的挑战。

OpenAI 发言人 Lindsay Held 在一封电子邮件中表示，OpenAI 为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力，OpenAI 使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

Meta 同样也遇到了训练数据可用性限制，其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。Meta 在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。在剑桥分析丑闻发生后，Meta 做出了以隐私为中心的变革，因此它使用消费者数据的方式显然也受到了限制。

从互联网上公开抓取大量数据来训练 AI 模型的做法仍然引发了一波版权诉讼和监管压力，同时促使一些媒体网站通过添加代码以阻止抓取。反过来，科技公司也在通过一系列数据交易来避免法律以及道德的影响。例如，通过与内容所有者的交易以及为满足需求而出现的数据经纪人行业的兴起来保障数据供应链。

在 ChatGPT 上线后的几个月内，包括 Meta、Google、Amazon 以及 Apple 在内的科技巨头都与股票图片提供商 Shutterstock 达成了协议，使用其图库中的数亿张图片、视频和音乐文件进行训练。

据悉，与这些大型科技公司的交易最初范围在 2500～5000 万美元之间。Shutterstock CFO Jarrod Yahes 表示，小型科技公司也紧随其后。

Shutterstock 的竞争对手 Freepik 也已经与两家大型科技公司达成了协议，以 2～4 美分每张图片的价格授权其 2 亿张图片档案的大部分，而 CEO Joaquin Cuenca Abela 表示，还有五笔类似的交易在进行中。

OpenAI 也已经与至少四家新闻组织签订了许可协议，包括 The Associated Press 和 Axel Springer 以及 Thomson Reuters。

除此之外，还有 Photobucket 这样曾在 2000 年初达到高峰 7000 万用户，而至今却不到 200 万用户的托管平台，由于生成式 AI 到来，而获得新的机会。

Photobucket CEO 目前正在与多家海外科技公司进行谈判，通过授权 Photobucket 130 亿张照片和视频用于训练生成式 AI 模型，这些模型可以响应文本提示产生新内容，每张照片 0.5～1 美元，每个视频超过 1 美元的费率，价格根据买家和所求的图像类型而有很大差异。

目前，这个领域仍然是一个灰色市场，涉及从聊天日志到早已被遗忘的个人照片，以及如今衰落的社交媒体应用，硅谷的科技巨头们正在悄悄购买这些“Loggin In”登陆框背后的隐秘数据。

Reference：

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

https://www.theverge.com/2024/4/6/24122915/openai-youtube-trans-gpt-4-training-data-google

https://www.theinformation.com/briefings/youtube-says-openais-use-of-its-videos-would-violate-terms?rc=z9mejq

近期资讯

Tiger-0507 2024-12-29

RFID设备都离不开它- -固定支架

支架分为多种，通常用到的有以下几种：一/壁挂式支架：这种支架通常用于将读写器或天线安装在墙壁上。它的设计简单而实用，一般由金属或高强度塑料制成。例如，在仓库的入口处，壁挂式支架可以将读写器安装在墙壁合适的高度，方便对进出货物的 RFID 标签进行读取。其安装方式可以是通过膨胀螺栓或者螺丝钉固定在墙壁上，确保读写器或天线的位置稳定。而且，壁挂式支架可以根据实际需要调整角度，使读写器或天线能够更好地覆盖需要读取标签的区域。二/立柱式支架：立柱式支架主要用于在开阔空间或者没有墙壁可供安装的环境中。比如在大型物流

条码刘帮主 2024-12-29

高考地理答题思路和技巧总结，90分，稳了！

为什么学地理如此重要? 为什么我们需要学习地理，乃至为什么我们喜欢旅行地理学的价值，不仅在于它对科研、决策和规划工作做出了实质性和分析性的贡献。这一学科在培养民众智识、参与感与充实感上，也发挥着重要的基础作用。学习地理使他们更加理解自己在世界上的位置，他们为世界之繁复绮丽感到兴奋，对萍水相逢之人、未曾涉足之地感到好奇。这是学姐整理的高考地理答题思路和技巧总结已经有很多同学领到并且打印下来了，都说很好用 [图片] [图片] [图片] [图片] [图片] [图片]

兔三毛 2024-12-29

东风快递直达 2024-12-29

高中政治七本书所有知识点都在这了，看谁还不知道呢

hihi~这里是一期政治学习方法分享首先介绍一下我个人的政治学习情况:九省联考96，高考97 平时不赋分基本80+ 政治尤其需要背书，例如24年一卷的最后一大题，考的非常细。但只要你背了，基本就能拿满分背什么: 不需要没个字都背，老师大概率会划重点，跟着重点背必修一:基本了解即可选择题常考:第一课社会阶段特征(资本主义社会，共产党宣言，马克思主义理论)、第二课中国社会阶段特征、第三课中国特色社会主义理论体系、第四课中国梦大题:笆四课是重占(尤其是中国梦那里)，前三课很少考必修二选择题常考:第一

嘉琳资料库 2024-12-29

高中政治选择题满分技巧，背了你不想90分都难！

于政治课来说，高一需要好好听课，政治是任何一个学段都要考试的学科，而且是必学，大学是公共课，大学毕业了考公也和政治密切相关，考研也要考，读博也有政治考核，这个政治和英语一样，可以不高，但是也必须合格，这是我们的国情决定的。初中政治是政治入门的基础，除了在应试上就有很大的价值，对个人三观的形成也有很大的影响，学习政治不能简单的听，更重要的是思考，思考多了会对你有很大的帮助，所以要好好学习政治，在课堂学习的基础上进行思考。这是学姐整理的高中政治选择题满分技巧已经有很多同学领到并且打印下来了，都说很好用 [

木木不吃香菜l 2024-12-29

截齿材质42CrMo的性能分析及比较

在截齿的选择中，材料的选择至关重要。不同的材质具有不同的机械性能和适用范围，因此选择合适的材质可以显著提升截齿的使用寿命和工作效率。42CrMo是一种常用的合金钢材质，广泛应用于制造高强度、高耐磨性的机械设备零件。然而，是否42CrMo就比其他材质更好，需要根据具体的应用场景和需求来判断。 1. 42CrMo材质的特点42CrMo（中国标准）是一种中碳合金钢，主要成分包括碳（C）、铬（Cr）、钼（Mo）和锰（Mn）。它的具体特点如下：高硬度：经过适当的热处理后，42CrMo的硬度可以达到50-55HRC

都尔伯特截齿 2024-12-29

AI 繁荣的背面，硅谷巨头正在“侵吞”你的数据；超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

推荐体验

相关资讯

OpenAI曾转录100万小时视频数据，训练GPT-4

OpenAI转录超过100万小时YouTube视频来训练GPT-4

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

近期资讯

第二届中大医院甲状腺肿瘤多学科论坛圆满落幕

中台设计方案（Word原件）

聊聊编程

RFID设备都离不开它- -固定支架

高考地理答题思路和技巧总结，90分，稳了！

2025年国产车衣排行榜10强

高中政治七本书所有知识点都在这了，看谁还不知道呢

高中政治选择题满分技巧，背了你不想90分都难！

截齿材质42CrMo的性能分析及比较

勤源FinOps：实现云成本管理与多云策略优化

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响