违规利用GPT生成数据训练自家大模型，字节跳动遭OpenAI调查，给行业敲响警钟

作者：搜狐科技发布时间：2023-12-18

字节跳动 OpenAI

出品 | 搜狐科技

作者 | 梁昌均

近日，OpenAI封禁字节跳动账号引发行业关注。有媒体报道，字节跳动“秘密”使用OpenAI技术及GPT模型生成的数据来开发自家大语言模型，违反了OpenAI服务条款。

随后OpenAI方面表示，所有API客户必须遵守使用政策，字节跳动的账户已被暂停，并称会进一步调查。字节跳动多次就此事澄清，其在最新的回应中表示，团队曾在大模型初期探索中，部分工程师将GPT的API服务应用于较小模型的实验性项目研究。

同时，字节大模型团队今年4月提出要求，不得将GPT生成的数据添加到字节大模型的训练数据集当中，并表示未来几天里会再次全面检查，以确保严格遵守相关服务的使用条款。

字节跳动被爆违规使用OpenAI的API服务，引发了外界对字节跳动的商业道德和合规性问题的质疑，其还被批评在大模型竞争在落下风的情况下意图“抄近道”、“走捷径”。

这次事件一定程度上也揭开了国内很多号称自研大模型的“遮羞布”，而谷歌、马斯克旗下AI公司也曾面临过类似质疑，这也显示出AI数据在未来大模型发展越发重要的地位。

被爆违规使用API服务，OpenAI和微软暂停字节访问

据The Verge早前报道，其获得字节跳动的内部文件证实，字节跳动几乎在每个开发阶段都依赖OpenAI的应用程序接口（API）来开发其代号为“种子计划”（Project Seed）的大语言模型，包括模型训练和评估。

报道称，字节跳动更多是在“种子计划”的早期阶段使用OpenAI的技术，但在几个月前，该公司要求团队在模型开发的任何阶段停止使用GPT生成的文本数据。约在这个时候，字节跳动获得批准发布自家AI大模型“豆包”，从而让“种子计划”上线。

但字节跳动继续违反OpenAI和微软服务条款使用API，包括评估豆包模型的性能。由于字节跳动员工大量使用OpenAI的技术，以至于“种子计划”的员工经常达到OpenAI API的最大访问上限，并试图用“数据脱敏”来粉饰证据。

据了解，字节跳动的“种子计划”约在一年前启动，主要研发两个大模型产品，一个是在国内上线的豆包。今年8月底，基于字节自研的通用大模型云雀而推出的“豆包”等首批8家大模型产品通过备案可向公众开放服务。另一个是针对商业用户的聊天机器人平台，其将通过字节跳动的云服务部门向商业用户推广和销售。

针对前述报道指控，字节跳动发言人约迪·赛斯（Jodi Seth）回应称，GPT生成的数据在“种子计划”的早期开发中用于注释模型，且在今年年中左右已从字节跳动的训练数据中删除。

“字节跳动获得了微软使用GPT API的许可。我们使用GPT是为开发非中国市场的产品和功能，只在中国提供服务的豆包是基于自主开发的模型。”赛斯在一份声明中称。

随后OpenAI发言人尼克·菲利克斯（Niko Felix）发表声明表示，所有API客户必须遵守使用政策，以确保技术被用于好的一面。“虽然字节跳动很少使用我们的API，但我们在进一步调查期间已暂停了他们的帐户。”

API是目前包括OpenAI等在内的大模型公司最为主流的商业模式，企业可以通过API调用获得基础模型的能力，并在此基础上开发相关的应用，服务方基于请求的使用量来收费。OpenAI除了自身直接提供GPT模型的API接口外，还由其合作伙伴微软通过Azure对外提供服务。

前述报道认为，字节跳动的行为违反了OpenAI的服务条款。搜狐科技查询到，OpenAI商业条款规定，其将输出内容的所有权转让给客户，但同时规定客户不得使用输出开发与OpenAI的产品和服务竞争的任何人工智能模型。

字节跳动使用的GPT API服务是通过Microsoft的Azure平台提供，The Verge报道称微软也已暂停字节跳动的访问权限。微软方面表示，所有客户都必须申请并获得微软的批准才能访问Azure OpenAI服务。“我们制定了标准并提供资源，帮助客户负责任地使用这些技术，并遵守服务条款，还制定了发现滥用行为的流程，并在企业违反行为准则时停止他们的访问。”

在最新的回应中，字节跳动介绍了公司使用OpenAI服务相关情况。该公司称，今年年初，当技术团队刚开始进行大模型的初期探索时，有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。在4月公司引入GPT API 调用规范检查后，这种做法已经停止。

此外，在今年4月，字节大模型团队已经提出了明确的内部要求，不得将GPT模型生成的数据添加到字节大模型的训练数据集，并培训工程师团队在使用GPT时遵守服务条款。随后9月，公司内部又进行了一轮检查，采取措施进一步保证对GPT的API 调用符合规范要求。例如分批次抽样检测模型输出结果与GPT的相似度，避免数据标注人员私自使用GPT。

“未来几天里，我们会再次全面检查，以确保严格遵守相关服务的使用条款。”字节跳动表示，也正与OpenAI联系沟通，以澄清外部报道可能引发的误解。

揭开大模型研发“遮羞布”，AI数据越发重要

对于字节跳动发布的声明，人工智能博士、知乎答主卜寒兮表示，有些绵软无力，没有直接否定指控，感觉还是有点心虚。

目前，OpenAI正在对字节跳动的行为进行调查。“如果我们发现他们的使用不符合公司政策，我们将要求他们做出必要的改变或终止他们的账户。”OpenAI前述发言人称。

字节是否遵守了OpenAI的服务使用政策，以及是否对数据使用进行了适当的披露和处理，以及是否用这些数据用于训练商业化的模型，都还需要进一步确认。如果字节被证实违规使用OpenAI的API服务，那么可能面临永久禁入的惩罚。

不过，卜寒兮认为，字节强调只在早期有过相关行为，而且没有用于商业，那后面有没有用应该如何查证呢？字节很难自证，OpenAI也很难质证，大概率最终是个糊涂账。“这应该不会对字节所开发的服务和模型造成实际影响，但会对公司信誉会有很大影响。”

字节承认曾利用OpenAI的API训练自家模型，一定程度上揭开了国内大模型的“遮羞布”。自OpenAI发布ChatGPT以来，国内迅速引发了大模型热潮，目前包括基础模型、行业模型等各类大模型已有两三百个。

不过，很多号称拥有自主知识产权的大模型难言真正的自研，不少借助了开源的力量，如Meta的开源大模型LLaMA。还有不少则是通过花钱调用OpenAI的API，向其投喂数据，利用GPT模型生成的数据去训练优化自家模型，这是业内常常所说的蒸馏法。

这也是为什么很多公司能在很短时间内迅速推出大模型，并在评测榜上遥遥领先的重要原因，而不少模型都曾被质疑过GPT套壳。有观点提到，由于大模型的黑箱性，且AI生成的数据版权目前缺乏统一共识，在模型训练中是否使用了GPT的数据很难验证。

OpenAI CEO山姆·奥特曼曾警告过创业者不要套壳ChatGPT，其表示OpenAI的模型产品会逐渐拓宽领域，在生存空间越来越有限的情况下，这些公司必将走向消亡。但由于OpenAI并未在国内开放服务，因此不少公司并不担心，但在使用OpenAI服务的过程中也需注意相关的商业规范，字节此次则给行业敲了一次警钟。

卜寒兮也提到，字节的做法其实见怪不怪，很多小厂和科研机构貌似都在研发大模型的过程中使用过OpenAI的API构建训练集对模型进行训练或者微调。“这一次引起的关注度比较高，是因为字节跳动规模和影响力方面都很大，其他机构虽然有类似行为，但可能没有商业行为，而字节可能涉及到商业使用的问题。”

实际上，谷歌以及马斯克的xAI此前都被质疑过使用过GPT的数据进行训练。今年3月，曾有谷歌AI工程师爆料谷歌Bard团队正在使用来自ShareGPT的信息进行训练，ShareGPT是用户发布他们与ChatGPT交流内容的平台。

该工程师认为，这会违反OpenAI的服务条款，而且会让Bard的答案看起来与OpenAI的聊天机器人过于相似。当时谷歌对此进行了否认，表示Bard没有接受过来自ShareGPT或ChatGPT的任何数据的训练。

不久前，xAI推出的聊天机器人Grok也被质使用了GPT的数据。安全测试员Jax Winterbourne展示了Grok拒绝查询并指称违反OpenAI政策的内容，xAI公司称由于网络上充斥着ChatGPT的输出，训练中意外捕捉到了类似输出，否认有利用OpenAI的代码来构建Grok。

但有观点认为，Grok可能是在OpenAI语言模型的输出数据上进行了微调，甚至有专家指出Grok有可能是在包含ChatGPT输出的数据集上进行了训练优化。随后ChatGPT账号发文表示：我们有很多共同之处，并转发了Winterbourne的帖子。马斯克则回怼ChatGPT从其X平台上抓取了所有数据用于训练，暴露了这两家公司在训练数据方面的争议。

这些争议事件也显示出数据的重要性。在原始数据越发稀缺的情况下，未来甚至面临无数据可用的情况下，AI生成的数据将成为大模型公司越来越重要的资产。对OpenAI等公司来说，其显然无法容忍竞对用GPT生成的数据去训练自己的大模型。

研究机构Epoch AI此前发布的论文认为，AI对数据的需求将会急剧增加，以至于可用于训练的高质量文本可能会在2026年耗尽，而低质量文本和图像数据可能在2030年至2060年之间枯竭。

因此有观点认为，人类真实数据会很快用完，将来训练用需要大量AI生成的数据，从而缓解对数据的饥渴。但也有研究认为，使用AI生成的合成数据进行训练可能并非可行的解决方案，因为数据集中缺乏差异性，会导致输出混乱而怪异。