研究称48%热门新闻网站屏蔽OpenAI爬虫

作者：鞭牛士发布时间：2024-02-27

OpenAI 谷歌

鞭牛士报道，2月27日消息，据路透社研究所的一项调查显示，截至 2023 年底，10 个国家/地区近一半 (48%) 的热门新闻网站屏蔽了OpenAI的爬虫，而近四分之一 (24%) 屏蔽了谷歌的 AI 爬虫。

路透社研究所分析了 15 个覆盖范围最广的在线新闻来源的 robots.txt，其中包括《纽约时报》、BuzzFeed News、《华尔街日报》、《华盛顿邮报》、CNN 和 NPR 等标题，涵盖德国、印度、西班牙等国家/地区、英国和美国。

由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。

该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。

到 2023 年底，超过二分之一 (57%) 的传统印刷出版物网站（例如《纽约时报》）将屏蔽 OpenAI 的爬虫程序，而电视和广播公司的这一比例为 48%，数字媒体的比例为 31%。

同样，32% 的印刷媒体屏蔽了 Google 的抓取工具，而 19% 的广播公司和 17% 的数字媒体也采取了同样的做法。

Gartner 副总裁、杰出分析师安德鲁·弗兰克 (Andrew Frank) 表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。

与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。

「这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。」弗兰克说。

部署网站爬虫的原因有很多。像谷歌的 Googlebot 这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI 的爬虫 GPTBot 通过互联网收集数据来训练其大型语言模型，例如 ChatGPT。这使得人工智能工具能够生成准确的同步数据——新闻出版商尤其具有独特的优势来提供这种能力：谷歌AI的权重比优质出版商的内容高出5 到 100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。

根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。

在美国，79% 的顶级在线新闻网站屏蔽了 OpenAI，而在墨西哥和波兰，只有 20% 的网站这样做了。与此同时，德国 60% 的新闻网站屏蔽了谷歌的爬虫，而波兰和西班牙则有 7% 的新闻网站屏蔽了谷歌的爬虫。

几乎所有屏蔽 Google AI 的网站也屏蔽了 OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明 OpenAI 在 Google 之前发布其爬虫程序可能对此有所贡献。

与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI 于去年 8 月初推出了人工智能爬虫，谷歌也于 9 月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对 OpenAI 或 Google AI 爬虫的屏蔽。