当前位置：首页|资讯|谷歌|OpenAI|人工智能

谷歌和 OpenAI 大量使用新闻内容作为 AI 训练的免费内容

作者：鞭牛士发布时间：2024-11-10

谷歌 OpenAI 人工智能

鞭牛士报道，11月9日消息，据外电报道，根据Ziff Davis 的一项新研究，谷歌、OpenAI 和 Meta 等人工智能巨头在训练大型语言模型时更加重视来自知名新闻来源的内容。

这一发现可以帮助公众了解聊天机器人从哪里获取信息，并为 Ziff Davis、芝加哥论坛报、新闻集团和纽约时报等媒体公司在寻求版权保护或支付被人工智能吞噬的材料时提供更多筹码。

研究指出：我们的研究表明，关键的AI培训数据集主要由新闻和媒体网站商业出版商拥有的高质量内容组成。在AI技术发展短暂的历史上，主要的AI公司已在培训最重要的AI时优先考虑了这些内容。

Ziff Davis 是 PCMag 的母公司。这项研究由该公司首席 AI 律师 George Wukoson 和首席技术官 Joey Fortuna 进行。它检查了 AI 公司承认使用的数据集的开源副本，包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承认会对其认为高质量的数据集赋予更多权重，包括新闻媒体、受版权保护的书籍以及 Reddit 热门帖子中嵌入的链接。这是一种对 LLM 从网络上抓取的所有内容进行排名的方式，目的是为用户提供更好的答案。

例如，尽管 WebText2 只占 3.8% 的 token，但它在训练 GPT-3 时赋予了它 22% 的权重。WebText2 中嵌入的近 13.5% 的 URL 来自 15 家顶级媒体出版商，其中包括新闻集团、纽约时报、Gannett、Ziff Davis、Vox Media、Axel Springer、Alden Capital、赫斯特、华盛顿邮报、BuzzFeed、Future、IAC 和 Bustle。

数据集的内容也会随时间而变化。例如，OpenAI 在 OpenWebText 中高度重视《华盛顿邮报》的内容，但在 OpenWebText2 发布后，其重要性有所降低。

齐夫·戴维斯 (Ziff Davis) 表示，研究结果量化了新闻媒体对人工智能聊天机器人未来的重要性，而且新闻媒体无需为此付费。这种长期利用优质出版商内容（对 LLM 公司来说利润丰厚）[意味着] 失去了一些全球估值最高的公司的许可收入。

如果不为内容付费，出版商可能会破产，从而威胁人工智能时代优质信息的持续流动。

据路透社报道，此前，一名联邦法官驳回了 Raw Story 和 AlterNet 对 OpenAI 提起的诉讼，该诉讼称，OpenAI 未经许可使用其内容培训法学硕士。《纽约时报》提起的相关案件仍在审理中。OpenAI 还与许多顶级媒体公司签署了许可协议。

OpenAI 最新推出的产品ChatGPT 搜索现在除了总结其中的内容外，还引用了部分来源。

推荐体验

相关资讯

谷歌和OpenAI大量使用新闻内容作为AI训练免费内容

谷歌和OpenAI大量使用新闻内容作为AI训练免费内容鞭牛士2024-11-09 07:12发布于北京鞭牛士官方账号鞭牛士报道，11月9日消息，据外电报道，根据Ziff Davis 的一项新研究，

鞭牛士 2024-11-09

OpenAI和谷歌再起纷争：AI的尽头是内容

为了提升模型在科学和技术领域的理解能力，OpenAI还收集了大量的学术论文作为训练数据。这些内容不仅OpenAI在用，其他无数AI公司也在用这些内容进行人工智能的训练，要保证OpenAI的领先性，就必须为其A…

OpenAI 谷歌人工智能

小编也疯狂 2024-05-21

《纽约时报》起诉OpenAI和微软非法复制和使用内容训练大模型

该报在一项新诉讼中指控这些公司利用其知识产权来训练ChatGPT使用的大型语言模型。」该诉讼指控微软和OpenAI大规模侵犯版权，称他们的人工智能系统“被用来创建时报知识产权的多重复制品，目的是创建GPT模…

OpenAI 微软 ChatGPT 大语言模型

鞭牛士 2024-02-23

OpenAI将付费使用出版巨头施普林格的新闻内容

北京商报讯（记者杨月涵）12月14日，澎湃新闻报道称，新闻出版巨头施普林格出版集团（AxelSpringer）与ChatGPT开发机构OpenAI签署协议，成为全球第一家与OpenAI合作将新闻业与人工智能技术进行更深入整合的出版机构。这是媒体为在人工智能工具中使用其内容而争取资金补偿的一个重要里程碑。

OpenAI ChatGPT 人工智能

北京商报 2023-12-14

为能使用新闻内容训练大模型，OpenAI拟向传媒公司支付数百万美元

IT之家 2024-01-04

近期资讯

洛阳北方玻璃申请曲面玻璃制备方法及装置专利，提高成型玻璃的产品精度

金融界2024年12月25日消息，国家知识产权局信息显示，洛阳北方玻璃技术股份有限公司申请一项名为“一种曲面玻璃的制备方法及装置”的专利，公开号CN119176661A，申请日期为2024年10月。

金融界 2024-12-25

厦门晟厉取得一种钣金件冲压定位辅助装置专利，解决冲压配合问题

金融界2024年12月25日消息，国家知识产权局信息显示，厦门晟厉工贸有限公司取得一项名为“一种钣金件冲压定位辅助装置”的专利，授权公告号CN222198655U，申请日期为2024年4月。

金融界 2024-12-25

沧州四星申请具有预热控制功能的玻璃管制瓶机专利，解决玻璃管制瓶生产成本高的问题

金融界2024年12月25日消息，国家知识产权局信息显示，沧州四星玻璃股份有限公司申请一项名为“一种具有预热控制功能的玻璃管制瓶机”的专利，公开号CN119176664A，申请日期为2024年11月。

金融界 2024-12-25

昆山合德欣取得金属板材加工用冲压模具专利，提高效率

金融界2024年12月25日消息，国家知识产权局信息显示，昆山合德欣精密模具有限公司取得一项名为“一种金属板材加工用冲压模具”的专利，授权公告号CN222198654U，申请日期为2024年4月。

金融界 2024-12-25

宁波固安力取得一种稳定的单柱压力机专利，避免工件挤压时错位变形

金融界2024年12月25日消息，国家知识产权局信息显示，宁波固安力精工有限公司取得一项名为“一种稳定的单柱压力机”的专利，授权公告号CN222198651U，申请日期为2024年4月。

金融界 2024-12-25

清创智申请光纤预制棒石英把棒熔接热防护涂层专利，涂层强度高、耐高温

金融界2024年12月25日消息，国家知识产权局信息显示，德清创智科技股份有限公司申请一项名为“一种光纤预制棒石英把棒熔接热防护涂层”的专利，公开号CN119176669A，申请日期为2024年10月。

金融界 2024-12-25

东台市洪华机械配件公司取得变径管锻压机专利，帮助定位变径管

金融界2024年12月25日消息，国家知识产权局信息显示，东台市洪华机械配件有限公司取得一项名为“一种辅助定位机构的变径管锻压机”的专利，授权公告号CN222198646U，申请日期为2024年5月。

金融界 2024-12-25

阿克苏竣创伟业钢结构取得不锈钢弯折机用定位结构专利，便于使用人员利用弯折机将钢板弯折呈弧形

金融界2024年12月25日消息，国家知识产权局信息显示，阿克苏竣创伟业钢结构有限公司取得一项名为“一种不锈钢弯折机用定位结构”的专利，授权公告号CN222198653U，申请日期为2024年4月。

金融界 2024-12-25

立胜（厦门）塑胶管材取得管件加工用扩口装置专利，提高加工效率

金融界2024年12月25日消息，国家知识产权局信息显示，立胜（厦门）塑胶管材有限公司取得一项名为“一种管件加工用扩口装置”的专利，授权公告号CN222198648U，申请日期为2024年5月。

金融界 2024-12-25

东莞市方展实业取得用于DP线外壳的铆压机专利，可增加固定稳定性

金融界2024年12月25日消息，国家知识产权局信息显示，东莞市方展实业有限公司取得一项名为“一种用于DP线外壳的铆压机”的专利，授权公告号CN222198650U，申请日期为2024年4月。

金融界 2024-12-25

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1