报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

作者：动点科技发布时间：2024-04-07

本周早些时候，华尔街日报报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，纽约时报详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。

报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

据称，OpenAI 公司知道这在法律上存在问题，但认为这是合理使用。泰晤士报则透露，OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中向 The Verge 表示，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

Google 发言人 Matt Bryant 在一封电子邮件中表示，该公司“看到了有关 OpenAI 活动的未经证实的报告”，并补充说“我们的 robots.txt 文件（注：网站与爬虫间的君子协定）和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。

YouTube 首席执行官 Neal Mohan 近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。

Meta 同样也遇到了数据可用性的限制，在泰晤士报听到的录音中，Meta 的 AI 团队为了努力追赶 OpenAI，讨论了未经许可使用版权作品的情况。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，显然考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。

相关资讯

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家4月7日消息，本周早些时候，《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。报道称，OpenAI迫切需要训练数据，并开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。

OpenAI GPT-4 Whisper 华尔街大语言模型

IT之家 2024-04-07

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

近日，《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面所面临的挑战及应对策略。其中，《纽约时报》深入探讨了AI公司如何处理数据收集的难题，尤其关注了涉及AI版权法的模糊灰色地带。

OpenAI GPT-4 华尔街

网界 2024-04-08

OpenAI转录超过100万小时YouTube视频来训练GPT-4

鞭牛士报道，4月7日消息，据TheVerge报道，本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。布莱恩特表示，当我们有明确的法律或技术依据时，谷歌会采取技术和法律措施来防止此类未经授权的使用。布莱恩特表示，该公司根据我们与YouTube创作者的协议，在一些YouTube内容上训练了模型。

OpenAI 谷歌 GPT-4 华尔街人工智能

鞭牛士 2024-04-07

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

【太平洋科技资讯】根所外媒报道，OpenAI等AI公司在获取高质量训练数据方面遇到了难题，其中OpenAI由于急需大量的训练数据，并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模…

OpenAI GPT-4 Whisper

太平洋电脑网 2024-04-10

OpenAI曾转录100万小时视频数据，训练GPT-4

4月7日，纽约时报在官网发布了一篇名为《科技巨头如何挖空心思，为AI收集数据》的技术文章。纽约时报表示，OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题，便开

OpenAI GPT-4

视角先锋队 2024-04-09

报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

推荐体验

相关资讯

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

OpenAI转录超过100万小时YouTube视频来训练GPT-4

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

OpenAI曾转录100万小时视频数据，训练GPT-4

近期资讯

宇文星光电取得电子元件加工用打标设备专利，能够稳定夹持并反转电子元件实现多方位喷印打标

通号通信申请铁路线路智能巡检专利，提高故障发现及时性和处理故障效率

江苏长天智远申请基于云原生技术的高速公路自由流收费专利，避免某些通道过载而其他通道空闲

中特生命健康科技取得具有定位功能的线段短停静态打码装置专利，保证码位置统一

中科制造（深圳）集团取得锂电池加工用喷码机专利，降低喷码机喷码到其他位置的概率

广东中南钢铁申请高炉本体巡检系统及巡检方法专利，能够实现对高炉本体巡检作业的自动化

重庆市凯钢机械制造有限公司取得飞轮加工用喷码设备专利，提高飞轮加工效率

广州裕富联申请种POS机业务巡检系统专利，能快速实现外勤人员巡检的风险排查

朝阳闽龙陶瓷取得精准定位喷墨印花装置专利，提高印花效果

融众易达取得微型打印机专利，增加打印纸进入走纸间隙中的张力

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响