当前位置：首页|资讯|OpenAI|GPT-4|华尔街

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

作者：网界发布时间：2024-04-08

OpenAI GPT-4 华尔街

近日，《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面所面临的挑战及应对策略。其中，《纽约时报》深入探讨了AI公司如何处理数据收集的难题，尤其关注了涉及AI版权法的模糊灰色地带。

据报道，为了克服数据收集的困难，领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该模型被用于转录超过100万小时的YouTube视频，以便训练其最新的大型语言模型GPT-4。这一策略显示了OpenAI对训练数据的迫切需求，以及其在数据收集方面的创新思维。

然而，这种数据收集方式在法律上存在一定的争议。尽管OpenAI认为其对YouTube视频的转录行为属于合理使用，但这一做法已经引起了版权法的关注。YouTube首席执行官Neal Mohan在近日的一次采访中表示，尽管没有直接证据显示OpenAI使用了YouTube视频来训练其文本生成视频的AI模型Sora，但他警告说，此类行为违反了YouTube的平台服务条款。

据了解，OpenAI的数据收集策略并不仅限于YouTube视频。该公司还从Github的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容中获取数据。OpenAI发言人Lindsay Held在一封电子邮件中透露，公司为其每个模型都策划了独特的数据集，以保持其全球研究竞争力。同时，该公司也正在考虑生成自己的合成数据。

此外，谷歌和Meta等科技巨头也在数据收集方面面临着类似的挑战。谷歌发言人Matt Bryant指出，谷歌的服务条款禁止未经授权的抓取或下载YouTube内容。而Meta的AI团队则在努力追赶OpenAI的过程中，讨论了未经许可使用版权作品的可能性，甚至考虑支付图书许可费用或收购大型出版商来获取更多数据。

推荐体验

相关资讯

报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

本周早些时候，华尔街日报报道称AI公司在收集高质量训练数据方面遇到了困难。今天，纽约时报详细介绍了AI公司处理此问题的一些方法，其中涉及到属于AI版权法模糊灰色区域的内容。报道称，OpenAI迫切需要训练数据，并开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。

OpenAI GPT-4 Whisper 华尔街

动点科技 2024-04-07

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

【太平洋科技资讯】根所外媒报道，OpenAI等AI公司在获取高质量训练数据方面遇到了难题，其中OpenAI由于急需大量的训练数据，并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模…

OpenAI GPT-4 Whisper

太平洋电脑网 2024-04-10

OpenAI转录超过100万小时YouTube视频来训练GPT-4

鞭牛士报道，4月7日消息，据TheVerge报道，本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。布莱恩特表示，当我们有明确的法律或技术依据时，谷歌会采取技术和法律措施来防止此类未经授权的使用。布莱恩特表示，该公司根据我们与YouTube创作者的协议，在一些YouTube内容上训练了模型。

OpenAI 谷歌 GPT-4 华尔街人工智能

鞭牛士 2024-04-07

OpenAI曾转录100万小时视频数据，训练GPT-4

4月7日，纽约时报在官网发布了一篇名为《科技巨头如何挖空心思，为AI收集数据》的技术文章。纽约时报表示，OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题，便开

视角先锋队 2024-04-09

AI 繁荣的背面，硅谷巨头正在“侵吞”你的数据；超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

YouTubeCEONealMohan在接受彭博社采访时表示，Google可能已经使用YouTube数据来训练其旗舰对话AI模型Gemini，以符合其与内容创作者签订的许可合同，而OpenAICTOMiraM…

OpenAI 谷歌 GPT-4

巴比特资讯 2024-04-16

近期资讯

如何在酷我音乐中轻松关闭自动续费，合理管理订阅服务

在如今这个数字化音乐盛行的时代，很多人都选择了在线音乐平台来满足自己的听歌需求。酷我音乐就是其中一个备受欢迎的选择，提供了丰富的音乐库和便捷的使用体验。不过，使用这些平台的时候，很多朋友可能会担心一个问题，那就是自动续费。今天就来聊聊酷我音乐怎么关闭自动续费，帮助大家更好地管理自己的订阅。

新报观察 2024-12-28

手机丢失后的应对策略：从冷静寻找到保护隐私的实用建议

生活中，我们几乎每时每刻都在用手机，无论是聊天、拍照，还是看视频、购物，手机已经成了我们生活中不可或缺的一部分。所以，假如不小心把小米手机丢了，应该怎么办呢？小米手机自带的“查找手机”功能非常实用，只要你在手机上开启了相关设置，那么即使手机不在你身边，你依然可以通过电脑或者其他手机来进行定位。

新报观察 2024-12-28

格力电器获得实用新型专利授权：“一种连接管防腐装置”

证券之星消息，根据天眼查APP数据显示格力电器（000651）新获得一项实用新型专利授权，专利名为“一种连接管防腐装置”，专利申请号为CN202420576586.5，授权日为2024年12月27日。

证券之星 2024-12-28

拨打韩国电话指南：国际拨号规则与文化礼仪全解析

在现代社会，打电话已经成为我们日常生活中不可或缺的一部分。韩国和中国的时差是一个小时，韩国比中国快一个小时。

新报观察 2024-12-28

出海周刊126期｜如何在卷疯了的海外市场卖出高价？/TikTok高管创业，AI Coding仍有新故事可讲

当新势力坚定走向海外市场，必然也有更多的胜利和失败故事将产生，写入驾驶和汽车行业的进化历史。阅读本期出海周刊，获取更多关于卡塔尔、沙特、智能硬件等行业与市场的观察。

36氪出海 2024-12-28

恒瑞医药获得发明专利授权：“吡唑并杂芳基类衍生物、其制备方法及其在医药上的应用”

证券之星消息，根据天眼查APP数据显示恒瑞医药（600276）新获得一项发明专利授权，专利名为“吡唑并杂芳基类衍生物、其制备方法及其在医药上的应用”，专利申请号为CN202080066108.4，授权日为2024年12月27日。专利摘要：本公开涉及吡唑并杂芳基类衍生物、其制备方法及其在医药上的应用。

证券之星 2024-12-28

在微信中发原图的技巧与意义：提升分享质量与交流体验

很多人可能觉得，发个图片不就是选一张发过去嘛，干嘛还要讲究原图不原图的呢？那么，微信到底怎么发原图呢？

新报观察 2024-12-28

如何为视频添加字幕：步骤、技巧与工具推荐解析

在这个信息爆炸的时代，视频已经成为了我们获取信息和娱乐的主要方式之一。这不仅仅是一个技术问题，还是一个创作和表达的过程。

新报观察 2024-12-28

风华高科获得实用新型专利授权：“一种树脂粘合剂过滤辅助装置及树脂粘合剂过滤系统”

证券之星消息，根据天眼查APP数据显示风华高科（000636）新获得一项实用新型专利授权，专利名为“一种树脂粘合剂过滤辅助装置及树脂粘合剂过滤系统”，专利申请号为CN202420709018.8，授权日为2024年12月27日。

证券之星 2024-12-28

我，短剧投资人，一年回本四万块

短剧，还能继续火吗？

融资中国 2024-12-28

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1