当前位置：首页|资讯

谷歌和 OpenAI 大量使用新闻内容作为 AI 训练的免费内容

作者：鞭牛士发布时间：2024-11-09

鞭牛士报道，11月9日消息，据外电报道，根据Ziff Davis 的一项新研究，谷歌、OpenAI 和 Meta 等人工智能巨头在训练大型语言模型时更加重视来自知名新闻来源的内容。

这一发现可以帮助公众了解聊天机器人从哪里获取信息，并为 Ziff Davis、芝加哥论坛报、新闻集团和纽约时报等媒体公司在寻求版权保护或支付被人工智能吞噬的材料时提供更多筹码。

研究指出：我们的研究表明，关键的AI培训数据集主要由新闻和媒体网站商业出版商拥有的高质量内容组成。在AI技术发展短暂的历史上，主要的AI公司已在培训最重要的AI时优先考虑了这些内容。

Ziff Davis 是 PCMag 的母公司。这项研究由该公司首席 AI 律师 George Wukoson 和首席技术官 Joey Fortuna 进行。它检查了 AI 公司承认使用的数据集的开源副本，包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承认会对其认为高质量的数据集赋予更多权重，包括新闻媒体、受版权保护的书籍以及 Reddit 热门帖子中嵌入的链接。这是一种对 LLM 从网络上抓取的所有内容进行排名的方式，目的是为用户提供更好的答案。

例如，尽管 WebText2 只占 3.8% 的 token，但它在训练 GPT-3 时赋予了它 22% 的权重。WebText2 中嵌入的近 13.5% 的 URL 来自 15 家顶级媒体出版商，其中包括新闻集团、纽约时报、Gannett、Ziff Davis、Vox Media、Axel Springer、Alden Capital、赫斯特、华盛顿邮报、BuzzFeed、Future、IAC 和 Bustle。

数据集的内容也会随时间而变化。例如，OpenAI 在 OpenWebText 中高度重视《华盛顿邮报》的内容，但在 OpenWebText2 发布后，其重要性有所降低。

齐夫·戴维斯 (Ziff Davis) 表示，研究结果量化了新闻媒体对人工智能聊天机器人未来的重要性，而且新闻媒体无需为此付费。这种长期利用优质出版商内容（对 LLM 公司来说利润丰厚）[意味着] 失去了一些全球估值最高的公司的许可收入。

如果不为内容付费，出版商可能会破产，从而威胁人工智能时代优质信息的持续流动。

据路透社报道，此前，一名联邦法官驳回了 Raw Story 和 AlterNet 对 OpenAI 提起的诉讼，该诉讼称，OpenAI 未经许可使用其内容培训法学硕士。《纽约时报》提起的相关案件仍在审理中。OpenAI 还与许多顶级媒体公司签署了许可协议。

OpenAI 最新推出的产品ChatGPT 搜索现在除了总结其中的内容外，还引用了部分来源。

推荐体验

相关资讯

OpenAI和谷歌再起纷争：AI的尽头是内容

为了提升模型在科学和技术领域的理解能力，OpenAI还收集了大量的学术论文作为训练数据。这些内容不仅OpenAI在用，其他无数AI公司也在用这些内容进行人工智能的训练，要保证OpenAI的领先性，就必须为其A…

OpenAI 谷歌人工智能

小编也疯狂 2024-05-21

《纽约时报》起诉OpenAI和微软非法复制和使用内容训练大模型

该报在一项新诉讼中指控这些公司利用其知识产权来训练ChatGPT使用的大型语言模型。」该诉讼指控微软和OpenAI大规模侵犯版权，称他们的人工智能系统“被用来创建时报知识产权的多重复制品，目的是创建GPT模…

OpenAI 微软 ChatGPT 大语言模型

鞭牛士 2024-02-23

OpenAI将付费使用出版巨头施普林格的新闻内容

北京商报讯（记者杨月涵）12月14日，澎湃新闻报道称，新闻出版巨头施普林格出版集团（AxelSpringer）与ChatGPT开发机构OpenAI签署协议，成为全球第一家与OpenAI合作将新闻业与人工智能技术进行更深入整合的出版机构。这是媒体为在人工智能工具中使用其内容而争取资金补偿的一个重要里程碑。

OpenAI ChatGPT 人工智能

北京商报 2023-12-14

为能使用新闻内容训练大模型，OpenAI拟向传媒公司支付数百万美元

IT之家 2024-01-04

AI版权“里程碑”协议：谷歌和OpenAI洽谈媒体机构，为训练内容付费

《华尔街日报》曾在今年3月份报道，拥有《纽约邮报》、《巴伦周刊》《华尔街日报》等的美国新闻集团准备通过法律程序向AI技术制造商如OpenAI、微软和谷歌要求赔偿。该报道援引一位熟悉媒体联盟组织的人士称，最近一…

谷歌 OpenAI 微软华尔街

华尔街见闻 2023-06-17

近期资讯

微软Win11画图应用大变身！AI填充、擦除一应俱全

快科技11月7日消息，Windows11新版画图应用已向Canary和Dev频道的WindowsInsider项目成员推出测试，具体版本号为11.2410.28.0。本次更新最主要的是引入了AI技术，包括生成填充和生成擦除两大功能，为用户的艺术创作带来全新体验。

驱动之家 2024-11-07

浙江湖州：重要输电通道安上了“透视眼”

近日，在湖州安吉陈落山地区，国网湖州供电公司在±800千伏金塘线4092号塔新安装了具备透雾功能的“红外热成像+可见光”双光监测装置，实现低能见度天气情况下输电线路覆冰情况远程清晰可视，标志着该公司在特高压重要输电通道智慧巡检方面取得了新突破，为今冬低温雨雪天气电力保供增添了保障。

金台资讯 2024-11-07

华福证券：OpenAI实现突破性进展加速推进AI浪潮

华福证券研报指出，1）OpenAI完整版o1模型泄露，o系列快速迭代。相较于已发布的o1-preview、o1-mini，此次泄露的完整版o1模型具有图像推理能力，且支持上传附件。完整版o1将具备函数调用、开发者message、结构化输出、流式传输等能力，很可能会成为OpenAI有史以来最显著的一次突破性进展。

证券时报 2024-11-07

安徽麦农农业发展有限公司取得带式输送机防跑偏托辊机构专利，保证防偏效果

金融界2024年11月7日消息，国家知识产权局信息显示，安徽麦农农业发展有限公司取得一项名为“一种带式输送机的防跑偏托辊机构”的专利，授权公告号CN221955125U，申请日期为2024年3月。

金融界 2024-11-07

维谛技术（Vertiv）助力河南开启人工智能计算新纪元

近日，由工信部新闻宣传中心、中国信息通信研究院联合主办，郑州市人民政府等承办的“2024中国算力大会”在郑州成功举办。算力崛起的背后，需要智算中心不断提升计算密度，加速计算能力，需要强大AI基础设施提供运行保障。

砍柴网 2024-11-07

自拍神器防水吗？15款自拍杆测评：六成样品进水后功能异常

然而，随着自拍杆功能的迭代，价格不一的自拍杆之间有什么区别？自拍杆可以在雨天等潮湿环境中使用吗？近日，广西消费者权益保护委员会发布了15款自拍杆商品的比较试验结果。结果显示，15款样品未达到IPX4防水等级，其中9款样品进水后功能异常；2款样品标签标识没有生产厂家信息。

南方都市报 2024-11-07

小米澎湃OS 2正式版内测11月推送名单：共11款设备

【CNMO科技消息】10月29日晚，在小米15系列暨小米澎湃OS2新品发布会上，小米公布了全新澎湃OS2的适配计划。

手机中国 2024-11-07

奥的斯机电进博首秀创新产品助力城市更新

展会期间，奥的斯全球公司执行官兼中国总裁罗小莉表示：“智能互联电梯及自动扶梯对促进更安全、绿色且人性化的城市环境至关重要。”“目前，随着电梯使用时间日久，大量电梯和自动扶梯亟待更新升级提升安全，奥的斯致力于通过全面的电梯焕新方案响应中国的城市更新规划，推动加力支持大规模设备更新。”

观察者网 2024-11-07

日本政府正式委托 Tenstorrent 培训多达 200 名芯片工程师

IT之家11月7日消息，RISC-VAI芯片设计企业Tenstorrent当地时间本月5日宣布将受日本经济产业省下辖新能源・产业技术综合开发机构（NEDO）和日本半官方机构技术研究组合最先端半导体技术中心（LSTC）委托，为日本在美培训多达200名芯片设计工程师。

IT之家 2024-11-07

红魔10 PRO系列首发复合液态金属：创新三明治结构

快科技11月7日消息，“红魔游戏手机”官微今日发文，红魔10PRO系列堪称是“酷热终结者”。据悉，复合液态金属采用双层低温合金中间夹铟基的“创新三明治结构”，有效解决外溢问题，微融态更安全。新的散热结构具有超强的导热性能，是普通散热凝胶导热能力的13倍。

快科技 2024-11-07

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1