当前位置:首页|资讯|字节跳动|OpenAI

违规利用GPT生成数据训练自家大模型,字节跳动遭OpenAI调查,给行业敲响警钟

作者:搜狐科技发布时间:2023-12-18

原标题:违规利用GPT生成数据训练自家大模型,字节跳动遭OpenAI调查,给行业敲响警钟

出品 | 搜狐科技

作者 | 梁昌均

近日,OpenAI封禁字节跳动账号引发行业关注。有媒体报道,字节跳动“秘密”使用OpenAI技术及GPT模型生成的数据来开发自家大语言模型,违反了OpenAI服务条款。

随后OpenAI方面表示,所有API客户必须遵守使用政策,字节跳动的账户已被暂停,并称会进一步调查。字节跳动多次就此事澄清,其在最新的回应中表示,团队曾在大模型初期探索中,部分工程师将GPT的API服务应用于较小模型的实验性项目研究。

同时,字节大模型团队今年4月提出要求,不得将GPT生成的数据添加到字节大模型的训练数据集当中,并表示未来几天里会再次全面检查,以确保严格遵守相关服务的使用条款。

字节跳动被爆违规使用OpenAI的API服务,引发了外界对字节跳动的商业道德和合规性问题的质疑,其还被批评在大模型竞争在落下风的情况下意图“抄近道”、“走捷径”。

这次事件一定程度上也揭开了国内很多号称自研大模型的“遮羞布”,而谷歌、马斯克旗下AI公司也曾面临过类似质疑,这也显示出AI数据在未来大模型发展越发重要的地位。

被爆违规使用API服务,OpenAI和微软暂停字节访问

据The Verge早前报道,其获得字节跳动的内部文件证实,字节跳动几乎在每个开发阶段都依赖OpenAI的应用程序接口(API)来开发其代号为“种子计划”(Project Seed)的大语言模型,包括模型训练和评估。

报道称,字节跳动更多是在“种子计划”的早期阶段使用OpenAI的技术,但在几个月前,该公司要求团队在模型开发的任何阶段停止使用GPT生成的文本数据。约在这个时候,字节跳动获得批准发布自家AI大模型“豆包”,从而让“种子计划”上线。

但字节跳动继续违反OpenAI和微软服务条款使用API,包括评估豆包模型的性能。由于字节跳动员工大量使用OpenAI的技术,以至于“种子计划”的员工经常达到OpenAI API的最大访问上限,并试图用“数据脱敏”来粉饰证据。

据了解,字节跳动的“种子计划”约在一年前启动,主要研发两个大模型产品,一个是在国内上线的豆包。今年8月底,基于字节自研的通用大模型云雀而推出的“豆包”等首批8家大模型产品通过备案可向公众开放服务。另一个是针对商业用户的聊天机器人平台,其将通过字节跳动的云服务部门向商业用户推广和销售。

针对前述报道指控,字节跳动发言人约迪·赛斯(Jodi Seth)回应称,GPT生成的数据在“种子计划”的早期开发中用于注释模型,且在今年年中左右已从字节跳动的训练数据中删除。

“字节跳动获得了微软使用GPT API的许可。我们使用GPT是为开发非中国市场的产品和功能,只在中国提供服务的豆包是基于自主开发的模型。”赛斯在一份声明中称。

随后OpenAI发言人尼克·菲利克斯(Niko Felix)发表声明表示,所有API客户必须遵守使用政策,以确保技术被用于好的一面。“虽然字节跳动很少使用我们的API,但我们在进一步调查期间已暂停了他们的帐户。”

API是目前包括OpenAI等在内的大模型公司最为主流的商业模式,企业可以通过API调用获得基础模型的能力,并在此基础上开发相关的应用,服务方基于请求的使用量来收费。OpenAI除了自身直接提供GPT模型的API接口外,还由其合作伙伴微软通过Azure对外提供服务。

前述报道认为,字节跳动的行为违反了OpenAI的服务条款。搜狐科技查询到,OpenAI商业条款规定,其将输出内容的所有权转让给客户,但同时规定客户不得使用输出开发与OpenAI的产品和服务竞争的任何人工智能模型。

字节跳动使用的GPT API服务是通过Microsoft的Azure平台提供,The Verge报道称微软也已暂停字节跳动的访问权限。微软方面表示,所有客户都必须申请并获得微软的批准才能访问Azure OpenAI服务。“我们制定了标准并提供资源,帮助客户负责任地使用这些技术,并遵守服务条款,还制定了发现滥用行为的流程,并在企业违反行为准则时停止他们的访问。”

在最新的回应中,字节跳动介绍了公司使用OpenAI服务相关情况。该公司称,今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在4月公司引入GPT API 调用规范检查后,这种做法已经停止。

此外,在今年4月,字节大模型团队已经提出了明确的内部要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时遵守服务条款。随后9月,公司内部又进行了一轮检查,采取措施进一步保证对GPT的API 调用符合规范要求。例如分批次抽样检测模型输出结果与GPT的相似度,避免数据标注人员私自使用GPT。

“未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。”字节跳动表示,也正与OpenAI联系沟通,以澄清外部报道可能引发的误解。

揭开大模型研发“遮羞布”,AI数据越发重要

对于字节跳动发布的声明,人工智能博士、知乎答主卜寒兮表示,有些绵软无力,没有直接否定指控,感觉还是有点心虚。

目前,OpenAI正在对字节跳动的行为进行调查。“如果我们发现他们的使用不符合公司政策,我们将要求他们做出必要的改变或终止他们的账户。”OpenAI前述发言人称。

字节是否遵守了OpenAI的服务使用政策,以及是否对数据使用进行了适当的披露和处理,以及是否用这些数据用于训练商业化的模型,都还需要进一步确认。如果字节被证实违规使用OpenAI的API服务,那么可能面临永久禁入的惩罚。

不过,卜寒兮认为,字节强调只在早期有过相关行为,而且没有用于商业,那后面有没有用应该如何查证呢?字节很难自证,OpenAI也很难质证,大概率最终是个糊涂账。“这应该不会对字节所开发的服务和模型造成实际影响,但会对公司信誉会有很大影响。”

字节承认曾利用OpenAI的API训练自家模型,一定程度上揭开了国内大模型的“遮羞布”。自OpenAI发布ChatGPT以来,国内迅速引发了大模型热潮,目前包括基础模型、行业模型等各类大模型已有两三百个。

不过,很多号称拥有自主知识产权的大模型难言真正的自研,不少借助了开源的力量,如Meta的开源大模型LLaMA。还有不少则是通过花钱调用OpenAI的API,向其投喂数据,利用GPT模型生成的数据去训练优化自家模型,这是业内常常所说的蒸馏法。

这也是为什么很多公司能在很短时间内迅速推出大模型,并在评测榜上遥遥领先的重要原因,而不少模型都曾被质疑过GPT套壳。有观点提到,由于大模型的黑箱性,且AI生成的数据版权目前缺乏统一共识,在模型训练中是否使用了GPT的数据很难验证。

OpenAI CEO山姆·奥特曼曾警告过创业者不要套壳ChatGPT,其表示OpenAI的模型产品会逐渐拓宽领域,在生存空间越来越有限的情况下,这些公司必将走向消亡。但由于OpenAI并未在国内开放服务,因此不少公司并不担心,但在使用OpenAI服务的过程中也需注意相关的商业规范,字节此次则给行业敲了一次警钟。

卜寒兮也提到,字节的做法其实见怪不怪,很多小厂和科研机构貌似都在研发大模型的过程中使用过OpenAI的API构建训练集对模型进行训练或者微调。“这一次引起的关注度比较高,是因为字节跳动规模和影响力方面都很大,其他机构虽然有类似行为,但可能没有商业行为,而字节可能涉及到商业使用的问题。”

实际上,谷歌以及马斯克的xAI此前都被质疑过使用过GPT的数据进行训练。今年3月,曾有谷歌AI工程师爆料谷歌Bard团队正在使用来自ShareGPT的信息进行训练,ShareGPT是用户发布他们与ChatGPT交流内容的平台。

该工程师认为,这会违反OpenAI的服务条款,而且会让Bard的答案看起来与OpenAI的聊天机器人过于相似。当时谷歌对此进行了否认,表示Bard没有接受过来自ShareGPT或ChatGPT的任何数据的训练。

不久前,xAI推出的聊天机器人Grok也被质使用了GPT的数据。安全测试员Jax Winterbourne展示了Grok拒绝查询并指称违反OpenAI政策的内容,xAI公司称由于网络上充斥着ChatGPT的输出,训练中意外捕捉到了类似输出,否认有利用OpenAI的代码来构建Grok。

但有观点认为,Grok可能是在OpenAI语言模型的输出数据上进行了微调,甚至有专家指出Grok有可能是在包含ChatGPT输出的数据集上进行了训练优化。随后ChatGPT账号发文表示:我们有很多共同之处,并转发了Winterbourne的帖子。马斯克则回怼ChatGPT从其X平台上抓取了所有数据用于训练,暴露了这两家公司在训练数据方面的争议。

这些争议事件也显示出数据的重要性。在原始数据越发稀缺的情况下,未来甚至面临无数据可用的情况下,AI生成的数据将成为大模型公司越来越重要的资产。对OpenAI等公司来说,其显然无法容忍竞对用GPT生成的数据去训练自己的大模型。

研究机构Epoch AI此前发布的论文认为,AI对数据的需求将会急剧增加,以至于可用于训练的高质量文本可能会在2026年耗尽,而低质量文本和图像数据可能在2030年至2060年之间枯竭。

因此有观点认为,人类真实数据会很快用完,将来训练用需要大量AI生成的数据,从而缓解对数据的饥渴。但也有研究认为,使用AI生成的合成数据进行训练可能并非可行的解决方案,因为数据集中缺乏差异性,会导致输出混乱而怪异。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1