《纽约时报》等多家顶级新闻网站屏蔽SearchGPT网络爬虫

作者：鞭牛士发布时间：2024-08-03

OpenAI 搜索引擎

鞭牛士报道，8月3日消息，据外电报道，在OpenAI推出SearchGPT大约一周后，一些顶级新闻出版商明确表示，他们不想与这家初创公司的新搜索引擎有任何关系。

《纽约时报》和至少 13 家其他新闻网站已屏蔽 OAI-SearchBot。这是一个网络爬虫，用于索引信息，以便 OpenAI 可以检索并向 SearchGPT 用户显示相关结果。

Originality.ai跟踪了这些内容，发现排名前 1,000 位的网站出版商中有 14 家已经屏蔽了 OAI-SearchBot。名单上的其他出版物包括《连线》、《纽约客》、《Vogue》、《名利场》和《GQ》。

Originality.ai 首席执行官乔恩·吉勒姆 (Jon Gillham) 表示，这有点令人费解。

「我不确定为什么出版商会屏蔽它。」他告诉《商业内幕》。「这是出版商想要和需要的流量。」

OpenAI 上周发布 SearchGPT 时强调，OAI-SearchBot 不会爬取网络来收集数据来训练其GPT-5等 AI 模型。它建议网站所有者允许新机器人确保您的网站出现在搜索结果中。

如果无法爬取每个网站的权限，OpenAI 的 SearchGPT 服务就有可能不如谷歌的搜索引擎完善。BI 询问 Gillham 是否有任何大型新闻出版商屏蔽了谷歌的搜索机器人，他说他不知道有哪个新闻出版商这么做了。

缺乏信任或对搜索流量存疑

OpenAI 还有另一个网络爬虫，名为 GPTbot，它可以收集在线数据用于 AI 模型训练。数百个网站已经屏蔽了它。这更有意义：你想要来自搜索引擎的流量，但你不想放弃你的内容来训练可能与你竞争的 AI 模型。

然而，OpenAI 多年来一直在未经许可的情况下收集在线数据。当 OpenAI 表示其新搜索机器人不会秘密窃取他们的内容作为 AI 训练数据时，出版商可能只是不信任它？

「我认为是这样。」吉勒姆说。

另一种理论是：如今的搜索结果并不总是会将用户引导到那些努力创建原创内容的网站。新人工智能搜索引擎的目标之一是通过向用户展示摘要来留住用户。如果出版商不再看到来自搜索引擎的大量流量，为什么还要允许他们的网络爬虫呢？

来自纽约时报的投诉

吉勒姆还指出，OpenAI 今年一直忙于与出版商达成协议，以使用他们的内容档案。（Business Insider 母公司 Axel Springer签署了其中一份协议。）

吉勒姆补充道：这似乎是 OpenAI 有意采取的一系列措施，首先与出版商搞好关系，签署所有这些合作协议，然后宣布 SearchGPT。

出版商中最大的反对者是《纽约时报》。它已起诉 OpenAI 和微软，指控这两家科技公司非法使用其成果来制造竞争产品。

《纽约时报》发言人查理·施塔特兰德 (Charlie Stadtlander) 在一份声明中表示：未经明确书面协议，无论我们是否阻止或限制任何特定机器人抓取我们的内容，《纽约时报》均不会授权将我们的作品用于生成搜索或人工智能训练目的。

《纽约时报》在针对 OpenAI 和微软的投诉中谈到了搜索引擎变得更加人工智能化并可能从出版商那里吸走流量的问题。

该出版商在诉状中写道：被告还使用微软的 Bing 搜索索引，该索引复制并分类了《纽约时报》的在线内容，生成的响应包含《纽约时报》文章的逐字摘录和详细摘要，这些文章比传统搜索引擎返回的内容长得多，也详细得多。被告的工具未经《纽约时报》许可或授权就提供《纽约时报》内容，破坏并损害了《纽约时报》与读者的关系，剥夺了《纽约时报》的订阅、许可、广告和联属收入。

OpenAI 尚未回应置评请求。