需要更多数据训练 OpenAI放开限制

作者：北京商报发布时间：2024-04-02

OpenAI正试图通过对数量庞大的非注册用户开放其较低版本模型ChatGPT，来扩充自己的训练数据来源。当地时间4月1日，OpenAI宣布，用户无需注册即可使用ChatGPT，即其旗下大语言模型GPT-3.5版本的对话式人工智能产品。

OpenAI在其官方网站发布的博文中宣称，其核心使命是让ChatGPT等工具得到广泛使用，以便人们可以体验人工智能的好处。目前，每周有来自185个国家和地区的超过1亿用户使用ChatGPT。OpenAI选择逐步推出无需注册即可使用ChatGPT的功能，目的是让任何对其功能感兴趣的人都可以使用人工智能。

此外，OpenAI可能会使用用户向ChatGPT提供的信息来改进其模型。不过，用户无论是否创建账户，都可以通过“设置”关闭此功能。

OpenAI还补充到，其为使用ChatGPT的未注册用户引入了额外的内容保护措施，例如阻止提示和更广泛类别的生成。同时，OpenAI不忘提示称，“创建账户有很多好处，包括能够保存和查看聊天历史记录、共享聊天以及解锁语音对话和自定义指令等附加功能”。

也就是说，无论用户是否注册使用ChatGPT，用户在使用过程中产生的数据都可能会被OpenAI用以训练模型，但用户可以主动选择关闭。相比起注册用户，非注册用户在使用ChatGPT时会有更加严格的内容保护政策，但OpenAI没有详细解释这种限制政策具体包括什么。

事实上，包括OpenAI、谷歌等巨头在内，所有的致力于发展人工智能的公司，都正在或即将面临数据短缺的困境，尤其是高质量数据的短缺。这主要由于，一方面需要数据训练模型的人工智能公司和大模型越来越多，对数据的需求越来越大；与此同时，一些数据所有者，比如纽约时报、reddit以及马斯克拥有的X平台，正在不同程度上限制或阻止部分或全部人工智能公司对他们数据的访问。

OpenAI称，185个国家的1亿多人每周使用ChatGPT。流量跟踪器SimilarWeb发现，尽管谷歌的Gemini已经开始出现增长势头，但2月份访问量估计为16亿的ChatGPT仍然是全球最大的人工智能聊天机器人网站。然而，它的流量比2023年5月的高点略有下降，当时估计访问量超过18亿。

有分析称，这应该也是OpenAI放开限制的原因，随着人工智能技术的发展，现有的互联网信息量可能不足以支撑科技巨头训练更先进的人工智能系统，甚至高质量文本数据的不足可能减缓人工智能技术的发展速度。

据华尔街日报4月1日报道，一些高管和研究人员表示，人工智能行业对高质量文本数据的需求可能会在两年内供不应求，这可能会减缓人工智能的发展。曾在OpenAI工作的人工智能研究员阿里·莫科斯（Ari Morcos）表示，数据短缺“是一个前沿研究问题”。

为了应对这个问题，报道援引知情人士的说法称，OpenAI已经讨论了利用YouTube公共视频的转录来训练其下一代模型GPT-5。

在更早前的一次采访中，OpenAI的CTO Murati在回答旗下视频生成模型Sora的训练数据来自哪里时，支支吾吾并试图回避回答这个问题，甚至称“不太确定”是否使用了Youtube、Facebook和Instagram等平台的数据。

同时，OpenAI和其竞争对手Anthropic的研究人员正试图通过创建所谓的更高质量的合成数据来避免这些问题。OpenAI的发言人表示，其还在探索合成数据生成。但也有另一些研究人员表示，这种方法实际上可能会导致严重的故障。

值得关注的是，The Information在上周的一篇报道中援引知情人士消息称，微软和OpenAI的高管一直在制订一个数据中心项目计划，该项目将包含一台超级计算机，配备数百万个专用服务器芯片，为OpenAI的人工智能提供动力。报道称，据一位曾与OpenAI首席执行官Sam Altman交谈过的人士以及一位看过微软部分初始成本估算的人士透露，该项目的成本可能高达1000亿美元，这一成本比当今一些最大的数据中心高出100倍。

北京商报综合报道