OpenAI转录超过100万小时YouTube视频来训练GPT-4

作者：鞭牛士发布时间：2024-04-07

鞭牛士报道，4月7日消息，据The Verge报道，本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。

今天，《纽约时报》详细介绍了一些公司处理此问题的一些方法。毫不奇怪，它涉及到属于人工智能版权法模糊灰色区域的事情。

故事从 OpenAI 开始，该公司迫切需要训练数据，据报道开发了Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

据《纽约时报》报道，该公司知道这在法律上存在问题，但相信这是合理使用。 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉The Verge，该公司为其每个模型策划了独特的数据集，以帮助他们了解世界并保持其全球研究竞争力。

赫尔德补充说，该公司使用众多来源，包括公开数据和非公开数据的合作伙伴，并且正在考虑生成自己的合成数据。

《纽约时报》的文章称，该公司在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物。那时，它已经用数据训练了模型，这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

谷歌发言人 Matt Bryant 在一封电子邮件中告诉The Verge，该公司看到了有关 OpenAI 活动的未经证实的报告，并补充说「我们的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容」，这与该公司的条款相呼应。

YouTube 首席执行官尼尔·莫汉 (Neal Mohan)本周就 OpenAI 使用 YouTube 训练其 Sora 视频生成模型的可能性发表了类似的言论。

布莱恩特表示，当我们有明确的法律或技术依据时，谷歌会采取技术和法律措施来防止此类未经授权的使用。

据《纽约时报》消息人士透露，谷歌还从 YouTube 收集了文字记录。布莱恩特表示，该公司根据我们与 YouTube 创作者的协议，在一些 YouTube 内容上训练了模型。

《纽约时报》写道，谷歌的法律部门要求该公司的隐私团队调整其政策语言，以扩大其对消费者数据的处理范围，例如谷歌文档等办公工具。

据报道，新政策是在 7 月 1 日特意发布的，目的是利用独立日假期周末的分散注意力。

Meta 同样也遇到了良好训练数据可用性的限制，在《纽约时报》听到的录音中，其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。

该公司在浏览了互联网上几乎可用的英语书籍、散文、诗歌和新闻文章后，显然考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。

在剑桥分析丑闻发生后，该公司做出了以隐私为中心的变革，因此它使用消费者数据的方式显然也受到了限制。

谷歌、OpenAI 和更广泛的人工智能训练界正在努力应对模型训练数据快速蒸发的问题，吸收的数据越多，模型就会变得越好。

《华尔街日报》本周撰文称，到 2028 年，公司可能会超越新内容。

《华尔街日报》周一提到的这个问题的可能解决方案包括对模型创建的“合成”数据进行训练，或者所谓的课程学习，其中包括以有序的方式向模型提供高质量的数据，希望它们能够使用更少的信息来建立概念之间更智能的联系，但这两种方法都尚未得到证实。

但这些公司的另一个选择是使用他们能找到的任何东西，无论他们是否获得许可，并且基于去年左右提起的多起诉讼，可以说，这种方式有点令人担忧。

OpenAI转录超过100万小时YouTube视频来训练GPT-4

推荐体验

相关资讯

OpenAI曾转录100万小时视频数据，训练GPT-4

报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

AI 繁荣的背面，硅谷巨头正在“侵吞”你的数据；超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，

近期资讯

安徽海贝取得玻璃杯生产用烘干装置专利，提高烘干效率

探索拼图的乐趣与技巧：从新手到高手的拼图之旅

手机截图技巧全攻略：轻松掌握编辑与分享功能，提升使用体验

广东晟琪取得分散光源曲面片材制备用烘干装置专利，提高曲面片生产效率

掌握下横线的使用方法与技巧，提升文档与编程效率

数字加圈的技巧与应用：提升信息组织与可读性的方法

四川碚城云山取得一种连接板生产加工用烘干装置专利，使用方便，利于广泛推广

苏州恒本科技取得磁瓦烘干装置专利，能提高生产效率

平罗县鹏辉煤业取得煤泥烘干装置专利，提高煤泥烘干效率

提取视频音频的多种方法与注意事项解析，轻松保存美好瞬间

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响