OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

作者：机器之心Pro发布时间：2023-08-08

OpenAI GPT-5

机器之心报道

编辑：蛋酱、小舟

众所周知，OpenAI 从 GPT-4 开始就已经对技术细节完全保密了，最初只用一份 Tech Report 来展示基准测试结果，而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料，OpenAI 也从未回应。

不难想象，训练 GPT-4 需要海量的数据，这可不是付费购买能解决的问题。大概率，OpenAI 用了网络爬虫。很多用户指控 OpenAI，理由就是这种手段会侵犯用户的版权和隐私权。

刚刚，OpenAI 摊牌了：直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。

这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了，爬取内容绝对不包括违反隐私来源和需要付费的内容。

OpenAI 表示：「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」

网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来，我们来看下 GPTBot 究竟是如何工作的，顺便了解一下屏蔽方法。

首先，GPTBot 的用户代理字符串（User-Agent String）如下：

使用如下方法可以将 GPTBot 添加到网站的 robots.txt，禁止 GPTBot 访问网站：

还可以允许 GPTBot 访问网站特定部分的内容：

近期，OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示，即使内容可以公开访问，像 OpenAI 这样的公司也应该遵循训练协议。人们还担心，内容在输入 AI 系统时会被断章取义。

但即使遵循了 robots 协议，鉴于其并不是规范，而只是约定俗成的，所以并不能保证网站的隐私。

GPTBot 发布之后，这条动态已经在 Hacker News 上引发了一场争论，焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。

一部分人认为，GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」：

「在训练完模型后还爬取数据，这真是太好了。根据推测，这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」

「现在，他们可以游说反抓取的监管并阻碍其他任何的追赶了。」

鉴于 GPTBot 会识别自己的身份，因此网站管理员可以通过 robots.txt 阻止它，但有些人认为允许它这样做没有任何好处，不像搜索引擎爬虫会带来流量。

一个值得关注的问题是，受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。

还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到，则可能构成版权侵权。

另外一些专家认为，如果 AI 编写的内容被反馈到训练中，爬虫生成的数据可能会降低模型的性能。

相反，一些人认为 OpenAI 有权自由使用公共网络数据，并将其比作一个人从在线内容中学习。但也有人认为，如果 OpenAI 将网络数据货币化以获取商业利益，那么就应该分享利润。

总之，GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤，但仍然缺乏透明度。

这或许是科技界下一个舆论焦点：随着 AI 产品的快速发展，「数据」到底该怎么用？

参考链接：

https://twitter.com/GPTDAOCN/status/1688704103554359296

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

推荐体验

相关资讯

OpenAI公布“官方爬虫”：GPT-5靠它训练，有需要可以屏蔽

OpenAI 部署网络爬虫为 GPT-5 做准备

OpenAI CEO重申尚未开始训练GPT-5 还有很多工作需要做

网站可以阻止OpenAI网络爬虫避免数据用于训练 GPT 模型

金峰国际：OpenAI 部署网络爬虫为 GPT-5 做准备

近期资讯

中海达：公司激光雷达为工业级产品

珞石机器人启动A股IPO：具备工业和协作双品类机器人产品线

规划3款教育硬件产品，豆神教育多元化硬件布局提升AI产品渗透率

参数惊艳！AMD锐龙9 9950X3D CPU-Z截图曝光

甘肃公航旅路业取得公路桥梁施工用路面铺平装置专利，该装置适用于大量混凝土的排料，效率高

游戏屏幕大乱斗！海信Vidda发现X Pro百寸电视大放异彩

小米智能摄像机“超级新品”官宣：“全新形态”，下周一上市

美菱503升冰箱BCD-503WPU9CZX：补贴1000元，高端家电性价比之选

2024年度硬件推荐指南

小米超级小爱首次向正式版用户开放：新增三大能力支持5种唤醒

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响