报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

作者：动点科技发布时间：2024-04-07

本周早些时候，华尔街日报报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，纽约时报详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。

报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

据称，OpenAI 公司知道这在法律上存在问题，但认为这是合理使用。泰晤士报则透露，OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中向 The Verge 表示，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

Google 发言人 Matt Bryant 在一封电子邮件中表示，该公司“看到了有关 OpenAI 活动的未经证实的报告”，并补充说“我们的 robots.txt 文件（注：网站与爬虫间的君子协定）和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。

YouTube 首席执行官 Neal Mohan 近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。

Meta 同样也遇到了数据可用性的限制，在泰晤士报听到的录音中，Meta 的 AI 团队为了努力追赶 OpenAI，讨论了未经许可使用版权作品的情况。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，显然考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。

相关资讯

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家4月7日消息，本周早些时候，《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。报道称，OpenAI迫切需要训练数据，并开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。

OpenAI GPT-4 Whisper 华尔街大语言模型

IT之家 2024-04-07

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

近日，《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面所面临的挑战及应对策略。其中，《纽约时报》深入探讨了AI公司如何处理数据收集的难题，尤其关注了涉及AI版权法的模糊灰色地带。

OpenAI GPT-4 华尔街

网界 2024-04-08

OpenAI转录超过100万小时YouTube视频来训练GPT-4

鞭牛士报道，4月7日消息，据TheVerge报道，本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。布莱恩特表示，当我们有明确的法律或技术依据时，谷歌会采取技术和法律措施来防止此类未经授权的使用。布莱恩特表示，该公司根据我们与YouTube创作者的协议，在一些YouTube内容上训练了模型。

OpenAI 谷歌 GPT-4 华尔街人工智能

鞭牛士 2024-04-07

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

【太平洋科技资讯】根所外媒报道，OpenAI等AI公司在获取高质量训练数据方面遇到了难题，其中OpenAI由于急需大量的训练数据，并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模…

OpenAI GPT-4 Whisper

太平洋电脑网 2024-04-10

OpenAI曾转录100万小时视频数据，训练GPT-4

4月7日，纽约时报在官网发布了一篇名为《科技巨头如何挖空心思，为AI收集数据》的技术文章。纽约时报表示，OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题，便开

OpenAI GPT-4

视角先锋队 2024-04-09

报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

推荐体验

相关资讯

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

OpenAI转录超过100万小时YouTube视频来训练GPT-4

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

OpenAI曾转录100万小时视频数据，训练GPT-4

近期资讯

三星电视使用技巧与小窍门：提升观影体验的实用指南

沈阳悦控智能科技取得料斗自动运输设备专利，有效防止物料全部堆积在圆槽内

支付宝碰一碰怎么样

快手本地，尚未成熟

电厂 | 微信小店“送礼物”，但腾讯拒绝提前“开香槟”

宁波汉工科技取得物料进料装置专利，提高物料进料效率

1号位必看！本地生活线上与线下的业务逻辑

如何在微信视频通话中灵活关闭摄像头的实用技巧与建议

如何在微信账号丢失或被盗时快速挂失与找回

中国移动通信申请一种算力节点配置方法专利，能够促进算力网络低碳化发展

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响