编辑|孙浩南
众所周知,在AI大模型领域,OpenAI研发出Chat-GPT这件事就像上学时老师布置了一个特别困难的题目,就在大家都还在整理解题思路或是百思不得其解的时候,班级里的学霸已经第一个写完了,于是大部分人则更倾向于与学霸交流思路,抑或是直接抄作业。
近期的种种风波似乎也证实了,许多看似复杂的事物其本质是一样的。前有马斯克的Grok AI 因为数据集污染被怀疑抄袭甚至是套壳Chat-GPT ,现有字节跳动涉嫌违反服务条款被OpenAI 封号。
字节跳动,陷入大模型舆论风波
近日,外媒The Verge报道称,字节跳动利用微软的 OpenAI API 账户生成数据来训练自己的人工智能模型,这种行为实际上已经违反了微软和OpenAI的使用条款。在此消息被披露不久,The Verge进一步称OpenAI已经暂停了字节跳动的账户。
那么字节跳动具体是违反了什么条款呢?其实在OpenAI的服务条款中有一项明确的规定,那就是OpenAI提供的模型能力,不允许用来被“开发任何与之产品和服务形成竞争的 AI 模型”。
根据The Verge的说法,证据是来自字节跳动的一份内部文件——海外版飞书Lark的聊天记录。
这份文件表明,字节跳动在代号为“种子计划”(Project Seed)基础大语言模型项目中,几乎是在每个开发阶段都依赖OpenAI的API来进行开发,包括训练和评估模型。
“种子计划”大约在一年前启动,目前主要研发两个产品,一个是在国内已经上线的豆包;另一个是针对商业用户的聊天机器人平台,目前正在开发中。
参与“种子计划”的员工是深知过度依赖OpenAI API的后果,于是他们就开始讨论如何通过“数据脱敏”来粉饰证据。以至于经常会出现员工达到OpenAI API的最大访问上限的情况。
The Verge根据内部文件表示,字节跳动大约是在几个月前下达了“模型开发的任何阶段停止使用 GPT 生成的文本”的命令。
不过也正是在这个时候,字节跳动发布了自家大语言模型豆包。豆包AI官微介绍,豆包AI可以提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息,支持网页Web平台,iOS以及安卓平台。豆包能提供自然语言处理、知识理解、对话、信息检索、情感分析、机器学习等多种类型的帮助。
但是,字节跳动继续以违反 OpenAI 和微软服务条款的方式使用 API,包括评估豆包背后模型的性能。一位对字节跳动内部情况有第一手了解的人指出,“他们说他们想确保一切都是合法的,但他们实际上只是不想被抓住把柄”。
三方接连表态,着急的只有字节
字节跳动
在The Verge发出这篇报道之后,字节跳动发言人Jodi Seth做出了如下回应:GPT 生成的数据在“种子计划”的早期开发中用于注释模型,并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权,可以使用GPT API。我们在非中国市场利用GPT支持我们的产品;但在中国市场,则是使用我们自研的模型来支持豆包。
昨日下午,字节跳动相关负责人再度回应称,公司在使用 OpenAI 相关服务时,强调要遵守其使用条款。我们也正与 OpenAI 联系沟通,以澄清外部报道可能引发的误解。
字节跳动使用 OpenAI 服务相关情况的介绍:
1、今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后,这种做法已经停止。
2、早在今年 4 月,字节大模型团队已经提出了明确的内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用 GPT 时遵守服务条款。
3、9 月,公司内部又进行了一轮检查,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。
4、未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。
OpenAI
OpenAI 发言人尼克・菲利克斯(Niko Felix)发表声明,确认字节跳动的账户已被暂停。“所有 API 客户必须遵守我们的使用政策,以确保我们的技术被用于好的一面。虽然字节跳动很少使用我们的 API,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不符合公司政策,我们将要求他们做出必要的改变或终止他们的账户。”菲利克斯表示。
微软
微软发言人弗兰克・肖(Frank Shaw)在一份声明中表示:“Azure OpenAI 服务等微软 AI 解决方案属于我们有限访问框架的一部分,这意味着所有客户都必须申请并获得微软的批准才能访问。我们还制定了标准并提供资源,帮助我们的客户负责任地使用这些技术,并遵守我们的服务条款。我们还制定了发现滥用行为的流程,并在企业违反我们的行为准则时停止他们的访问。”
从此次事件中的三方声明中可以看出,OpenAI 比较保守,只是暂停了字节跳动的账号,并表示会进行调查后再决定是否需要采取进一步措施。微软则是有一种“事不关己高高挂起”的态度,仿佛再说“我只是中间人,我们有自己的规定,如果有违反的行为我们会禁止的”。字节跳动则显得更着急一些,毕竟“火”已经烧在身上了。先是澄清解释,再是立刻联系OpenAI想要迅速对此次事件“灭火”。
字节跳动的AI布局
公开资料显示,早在2016年,字节跳动就成立了AI实验室,聚焦于自然语言处理、机器学习、数据挖掘等方面的研究。抖音、今日头条等字节跳动旗下产品中也频频加入AIGC(生成式人工智能)功能,持续吸引流量。
2023年,字节跳动在AI领域的动作明显加快。6月,字节跳动旗下火山引擎发布大模型服务平台“火山方舟”,面向企业提供模型精调、评测、推理等全方位的平台服务。
8月,字节跳动自研的通用大模型“云雀”在首批通过《生成式人工智能服务管理暂行办法》大模型名单中露出。
8月17日,字节跳动公测基于云雀大模型开发的AI聊天机器人“豆包”,面向C端市场发力AI应用。
近期,在收缩游戏和XR业务的同时,字节跳动成立了一个新的AI部门Flow。相关招聘信息显示,Flow是字节跳动旗下AI创新业务团队,目前已在国内和海外分别上线了“豆包”和“Cici”两款产品,还有多个AI相关创新产品在孵化中。
同时,今年字节跳动向英伟达订购超过10亿美元的GPU,仅它一家的订单就达到了英伟达去年在中国销售商用GPU收入的总和。除此之外,在人才招聘上,有关AIGC新发岗位量TOP10的企业中,字节跳动也是位列第一,占所有AIGC新发岗位的3.24%。
种种行为足见字节对于AI和大模型的重视之高,回到此次事件本身,如此重视的字节会为了“弯道超车”而冒如此大的风险吗?
元宇宙新声有话说
ChatGPT 的横空出世后,字节跟很多国内大厂一样,在努力跟进AI的节奏。但显然字节要更加落后一点,豆包上线后很多人使用,但效果并没有达到一流的水准。如果说利用Chat-GPT训练出来的AI只是这种效果的话,似乎不太说的过去,而如果没有用Chat-GPT来训练豆包的话,那么达到这种效果也算是预料之中。
在此前马斯克的Grok AI涉嫌抄袭Chat-GPT时,人工智能研究员西蒙·威利森 (Simon Willison)在接受 Ars Technica 采访时就表示:“许多大模型已经在使用 OpenAI API 生成的数据集上进行了微调,或者从 ChatGPT 本身中抓取。”
但显然这些操作都是在合理范围内进行的,字节或许也是如此,至于字节是否过于“急功近利”而选择越过合理范围进行使用,想必作为一家庞大的互联网公司,应该还不至于进行如此“因小失大”的抄袭行为。