OpenAI公布“官方爬虫”：GPT-5靠它训练，有需要可以屏蔽

作者：机器之心发布时间：2023-08-08

OpenAI GPT-5

众所周知，OpenAI 从 GPT-4 开始就已经对技术细节完全保密了，最初只用一份 Tech Report 来展示基准测试结果，而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料，OpenAI 也从未回应。

不难想象，训练 GPT-4 需要海量的数据，这可不是付费购买能解决的问题。大概率，OpenAI 用了网络爬虫。很多用户指控 OpenAI，理由就是这种手段会侵犯用户的版权和隐私权。

刚刚，OpenAI 摊牌了：直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。

这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了，爬取内容绝对不包括违反隐私来源和需要付费的内容。

OpenAI 表示：「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来，我们来看下 GPTBot 究竟是如何工作的，顺便了解一下屏蔽方法。

首先，GPTBot 的用户代理字符串（User-Agent String）如下：

使用如下方法可以将 GPTBot 添加到网站的 robots.txt，禁止 GPTBot 访问网站：

还可以允许 GPTBot 访问网站特定部分的内容：

近期，OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示，即使内容可以公开访问，像 OpenAI 这样的公司也应该遵循训练协议。人们还担心，内容在输入 AI 系统时会被断章取义。

但即使遵循了 robots 协议，鉴于其并不是规范，而只是约定俗成的，所以并不能保证网站的隐私。

GPTBot 发布之后，这条动态已经在 Hacker News 上引发了一场争论，焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。

一部分人认为，GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」：

「在训练完模型后还爬取数据，这真是太好了。根据推测，这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在，他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

鉴于 GPTBot 会识别自己的身份，因此网站管理员可以通过 robots.txt 阻止它，但有些人认为允许它这样做没有任何好处，不像搜索引擎爬虫会带来流量。

一个值得关注的问题是，受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到，则可能构成版权侵权。

另外一些专家认为，如果 AI 编写的内容被反馈到训练中，爬虫生成的数据可能会降低模型的性能。

相反，一些人认为 OpenAI 有权自由使用公共网络数据，并将其比作一个人从在线内容中学习。但也有人认为，如果 OpenAI 将网络数据货币化以获取商业利益，那么就应该分享利润。

总之，GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤，但仍然缺乏透明度。

这或许是科技界下一个舆论焦点：随着 AI 产品的快速发展，「数据」到底该怎么用？

参考链接：

https://twitter.com/GPTDAOCN/status/1688704103554359296

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close

本文来自微信公众号“机器之心”（ID:almosthuman2014），编辑：蛋酱、小舟，36氪经授权发布。

OpenAI公布“官方爬虫”：GPT-5靠它训练，有需要可以屏蔽

推荐体验

相关资讯

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

OpenAI 部署网络爬虫为 GPT-5 做准备

OpenAI CEO重申尚未开始训练GPT-5 还有很多工作需要做

网站可以阻止OpenAI网络爬虫避免数据用于训练 GPT 模型

金峰国际：OpenAI 部署网络爬虫为 GPT-5 做准备

近期资讯

合肥信安申请便携式5G通讯基站专利，便于设备整体件拆装携带

弗洛德科技取得可调深度的浮筒式潜水搅拌机专利，方便对潜水搅拌机组件工作深度进行调节

深圳市鼎元智能申请移动终端网络通信专利，能使双SIM卡实现功能划分满足通信需求

永康市亦彩水性涂料有限公司取得油漆自动配色装置专利，使调色更加精准减少油漆浪费

浙江万胜智能申请具有远程无线传输的微型智能网关专利，提高智能网关的通信效果

江苏博泰取得中水二次添料混合装置专利，提高杂质过滤

镇江东方电热申请电磁感应线圈外置的电磁加热器及使用方法专利，提高加热效率

深圳市共进电子申请浪涌保护相关专利，提高设备可靠性稳定性

华为申请通信方法和通信装置专利，明确单播 TWT SP 建立对齐方法

上海上诺科技发展取得一种分散剂助剂生产罐专利，降低能源的损耗

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响