当前位置:首页|资讯|字节跳动|OpenAI|生成式AI|大语言模型

字节跳动被曝秘密使用OpenAI技术训练自家大模型,官方回应

作者:金融界发布时间:2023-12-17

原标题:字节跳动被曝秘密使用OpenAI技术训练自家大模型,官方回应

据凤凰网科技报道,在生成式 AI 竞争中处于落后的字节跳动想要“抄近道”,该公司一直在秘密使用 OpenAI 的技术开发自家大语言模型,这违反了 OpenAI 的服务条款。目前,字节跳动的账户已被 OpenAI 暂停

据媒体报道,在 AI 领域,字节跳动的这一做法通常被视为一种“失礼”行为,也直接违反了 OpenAI 的服务条款。

OpenAI 的服务条款规定,该公司所输出的模型不能被用于“开发任何与我们的产品和服务竞争的 AI 模型”。字节跳动通过微软购买了 OpenAI 的访问权限,但是微软也制定了与 OpenAI 同样的政策。

有媒体获得的字节跳动内部文件证实,字节跳动在几乎每个开发阶段都依赖 OpenAI 的应用程序接口(API)来开发其代号为“种子计划”(Project Seed)的基础大语言模型,包括训练和评估模型。参与“种子计划”的员工都深知这一行为的不良影响。

根据字节跳动员工在内部通讯平台飞书海外版 Lark 的聊天记录,他们讨论了如何通过“数据脱敏”来粉饰证据

据媒体报道,字节跳动员工大量使用 OpenAI 的技术,以至于“种子计划”的员工经常达到 OpenAI API 的最大访问上限。

内部文件显示,字节跳动更多的是在“种子计划”的早期阶段使用 OpenAI 的技术。

几个月前,该公司命令该团队在“模型开发的任何阶段”停止使用 GPT 生成的文本。大约在这个时候,该公司获得了批准发布了自家 AI 大模型“豆包”,从而让“种子计划”上线。

但是,字节跳动继续以违反 OpenAI 和微软服务条款的方式使用 API,包括评估豆包背后模型的性能。

一位对字节跳动内部情况有第一手了解的人指出,“他们说他们想确保一切都是合法的但他们实际上只是不想被抓住把柄”。

字节跳动发言人约迪・赛斯(Jodi Seth)对此回应称,GPT 生成的数据在“种子计划”的早期开发中用于注解模型,并且在今年年中左右的时候已从字节跳动的训练数据中删除。“

字节跳动获得了微软的许可能够使用 GPT API。我们使用 GPT 驱动非中国市场的产品和功能,但使用我们自主开发的模型驱动豆包。豆包只在中国提供。”赛斯在声明中称。

OpenAI 发言人尼克・菲利克斯(Niko Felix)发表声明,确认字节跳动的账户已被暂停。“所有 API 客户必须遵守我们的使用政策,以确保我们的技术被用于好的一面。虽然字节跳动很少使用我们的 API,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不符合公司政策,我们将要求他们做出必要的改变或终止他们的账户。”菲利克斯表示。

微软发言人弗兰克・肖(Frank Shaw)在一份声明中表示:“Azure OpenAI 服务等微软 AI 解决方案属于我们有限访问框架的一部分,这意味着所有客户都必须申请并获得微软的批准才能访问。我们还制定了标准并提供资源,帮助我们的客户负责任地使用这些技术,并遵守我们的服务条款。我们还制定了发现滥用行为的流程,并在企业违反我们的行为准则时停止他们的访问。”

而在今日下午,字节跳动相关负责人再度回应称,公司在使用 OpenAI 相关服务时,强调要遵守其使用条款。我们也正与 OpenAI 联系沟通,以澄清外部报道可能引发的误解。

IT之家附字节跳动使用 OpenAI 服务相关情况的介绍:

1、今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后,这种做法已经停止。

2、早在今年 4 月,字节大模型团队已经提出了明确的内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用 GPT 时遵守服务条款。

3、9 月,公司内部又进行了一轮检查,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。

4、未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。

来源:IT之家


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1