OpenAI推出网络爬虫GPTBot，但用户可以选择禁止被爬

作者：虞景霖发布时间：2023-08-08

OpenAI

作者 | 虞景霖

编辑 | 邓咏仪

AI模型的升级依靠海量的公开数据，而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。

8月8日，OpenAI推出了一款名为GPTBot的网络爬虫机器人，用于收集训练AI模型所需的数据信息。有市场消息称，OpenAI将利用这些数据升级GPT-4和其他大语言模型（如可能即将推出的GPT-5和开源的G3PO）。

根据OpenAI介绍，GPTBot和其他所有网络爬虫一样，从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外，网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。

如何识别GPTBot？

来源：OpenAI

如何禁止GPTBot访问？

将GPTBot添加到网站的robots.txt:

来源：OpenAI

如何限制GPTBot访问，使其只爬取网站的一部分数据？

将下列命令添加至网站的robots.txt:

来源：OpenAI

此外，根据OpenAI发布的有关GPTBot的文档，还列出了GPTBot使用的IP范围（目前只列出了一个，之后将继续添加）。

来源：OpenAI

数据的爬取是AI模型训练不可或缺的一环，而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案，Reddit和X（前Twitter）等网站也采取了相应措施打击AI公司爬取用户数据的行为。

喜剧演员兼作家Sarah Silverman曾在美国法院起诉OpenAI的侵权行为，原因是ChatGPT会总结她的书籍，这一行为构成了侵权。

GPTBot是对围绕版权、公开信息合理使用的一次尝试，使数据收集尽可能在监管范围之内。

网站信息和ChatGPT等大语言模型可以是相辅相成、互相促进的，但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量，网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接，因此无法为网站带去流量。

尽管如此，正如Perplexity和其他大语言模型展示的那样，生成式人工智能机器人的回答还可能包括链接和引用，在未来也有可能成为ChatGPT的特性之一。因此，网站内容发布者也可能希望网站信息被用于AI模型，以换取可能的流量。

OpenAI推出网络爬虫GPTBot，但用户可以选择禁止被爬

如何识别GPTBot？

如何禁止GPTBot访问？

如何限制GPTBot访问，使其只爬取网站的一部分数据？

推荐体验

相关资讯

OpenAI推出网络爬虫GPTBot，允许用户禁止GPTBot爬虫收集数据

OpenAI 发布网络爬虫工具 GPTBot

OpenAI推出网络爬虫机器人GPTBot：收集数据改进AI模型

OpenAI 推出网络爬虫 GPTBot，引发网站抵御潮：信息被爬走就很可能意味着永远无法删除

OpenAI 发布网络爬虫工具 GPTBot，宣称可在版权的基础上抓取信息

近期资讯

温州忠一阀芯取得一种新型分水开关专利，实现水流流向改变及水路通断

广东美芝取得单向阀及制冷设备专利，降低单向阀加工成本

江苏川南消防取得一种消防用遥控分水器专利，过滤效果较好

泉州市春江阀门制造有限公司取得具备双密封性的阀门专利，达到对阀门本体内部的湿气进行吸收的效果

科昌液压科技取得一种四路换向阀用换向结构专利，以较小的成本来完成水路的调节

上海锐铼水务科技取得一种电磁水表的阀门控制装置专利，实现对于单向阀的开度控制

浙江奥诗柯流体控制股份有限公司取得防回流阀门接管专利，避免水流回流冲击阀门保护其免受损伤

方太取得一种防火止回阀专利，使紧固件装配时能较快安装固定

浙江欧菲石油设备取得整体式双端锻钢取样闸专利，能满足不同要求合理选择提高安全性

新乡市陆铠通液压传动机械有限公司取得新型分流阀组专利，可对出口流量进行控制并过滤液体

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响