当前位置:首页|资讯|字节跳动|OpenAI|大语言模型

字节跳动被OpenAI封号,国产大模型的“秘密”曝光

作者:三易生活发布时间:2023-12-19

原标题:字节跳动被OpenAI封号,国产大模型的“秘密”曝光

最近几天,虽然国内互联网行业最为吸引人,莫过于东方甄选与董宇辉之间的是是非非,但在海外,The Verge一篇题为《字节跳动正在秘密使用OpenAI技术打造自己的大型语言模型》的文章,则让OpenAI和字节跳动陷入了“罗生门”。很快OpenAI公司发言人尼克·菲利克斯确认,字节跳动账户已被暂停。紧接着,字节跳动方面也站出来澄清了OpenAI相关服务的使用情况。

“他们其实真的不想被抓到,生成式人工智能的疯狂竞争意味着即使是实力最强大的玩家也在抄抄近道”,这是The Verge对于这一事件的注解。在相关文章中,The Verge方面拿到的字节跳动内部文件显示,其在开发代号为Project Seed的LLM几乎每已个阶段都依赖OpenAI API,其中包括用于训练和评估模型。甚至他们同时还拿到了被认为是字节跳动公司员工在飞书海外版Lark上的对话记录,内容是则讨论如何进行“数据脱敏”。

具体来说,The Verge认为字节跳动使用了OpenAI的API服务来训练自家大模型。但根据OpenAI在服务条款“限制”类目下的描述,OpenAI大模型的输出结果是不能用于“开发任何与我们的产品和服务相竞争的人工智能模型”,并且OpenAI方面也正是以此为由暂停了字节跳动的账户。

事实上,字节跳动公司发言人Jodi Seth也已承认,GPT生成的数据在“Project Seed”的早期开发中被用于注解模型,并且在今年年中左右就已从训练数据中删除。按照字节跳动方面的说法,今年年初确实有部分工程师将GPT的API服务应用于较小模型的实验性项目研究,但该模型仅为测试作为,没有计划上线、也从未对外使用。在4月份之后,字节跳动引入了GPT API调用规范检查,GPT模型生成的数据也不再添加到字节跳动的训练集中。

值得一提的是,字节跳动在相关声明中有提及“获得了微软的许可能够使用GPT API”,即他们实际上是从微软Azure获得的OpenAI API服务,也就是说字节跳动是与微软签订的采购合同,所以理论上与OpenAI无关。众所周知,微软是OpenAI的最大金主,而且OpenAI打造的ChatGPT也有赖于微软Azure的云计算服务,Azure OpenAI就是双方合作的一项成果。

由于OpenAI自家的API服务和微软的Azure OpenAI在接口地址上是完全不同的,所以如果字节跳动确实只使用了微软的相关服务,那么他们被OpenAI封号确实属于无妄之灾,但事实的真相或许并不是这样。相比于Azure成熟的云服务体系,OpenAI的基础设施很难满足企业级用户的需求,所以直接使用OpenAI的API对于字节跳动的大模型业务来说也是弊大于利。

目前,有一种说法得到了相当多业内人士的赞同,即字节跳动的工程师被默许、或被要求以个人身份使用OpenAI API。这也就能解释The Verge在相关内容中所提及,“Project Seed”的成员经常达到OpenAI API的最大访问上限,也就是10000美元的限额。在OpenAI官网公布的价目表显示,使用到10000美元的上限也就意味着至少调用了上千万次GPT-4。

当然,这也仅仅只是猜测,毕竟OpenAI和字节跳动的大模型目前还都是“黑箱”,即便字节跳动有少量数据没有完成清洗,也很难证明他们就一定用了OpenAI大模型输出的结果。万一字节跳动是从公开网络中抓取的数据,或者干脆就是字节跳动的大模型出现了幻觉呢?毕竟谷歌的Gemini-Pro还说自己是百度的文心一言,马斯克的Grok也说过自己要遵守OpenAI的相关条款。

所以问题就来了,为什么字节跳动会与OpenAI API陷入瓜田李下的风波呢?其实准确来说,几乎所有“百模大战”的参与者都将OpenAI视为可一座宝藏,字节跳动在做的事情同样也是绝大多数国内大模型厂商在做的。据不完全统计,截至今年11月末,国内涉及10亿参数规模以上的大模型厂商及相关机构已达254家,也使得短短一年时间AI大模型就进入了寻常百姓家。

即便OpenAI用基于人类反馈的强化学习(RLHF),揭开了Transformer架构在自然语言处理(NLP)领域的窗户纸,为大语言模型的发展指明了方向,但相关厂商的跟进速度着实也太快了一些,仿佛一夜间相关技术就变成了大白菜。

有业内人士透露,这个问题的答案就是“知识蒸馏”(Knowledge Distillation),这项被称为“教师-学生神经网络学习算法”的技术正是从业者用来压缩模型规模、降低模型部署成本的。简单来说,就是许多大模型厂商借助知识蒸馏的方式,借助OpenAI的API去与GPT-4对话,用GPT-4输出的结果反过来训练和校正自家大模型。

大家不妨回忆一下,百模大战是从什么时候被提出,就正是在今年4月中旬。但这个时间点极其暧昧,在此之前,只有在AI赛道持续多年下重注的百度,在3月中旬上线了文心一言。

在百模大战爆发前的一个半月,OpenAI方面在3月2日宣布正式开放ChatGPT API。只用一个多月就能追上百度进度的原因,要么是百度多年来“All in AI”是个笑话,要么就是用OpenAI的大模型去蒸馏自家大模型是潜规则,大家觉得哪个可能更接近事实的真相呢?

从某种意义上来说,这一操作与谷歌的AI反馈强化学习(RLAIF)其实有着异曲同工之妙。更接近事实的一点,是这种借助其他优质大模型输出作为训练集的操作其实不仅在国内通行,同样也受到了谷歌、Meta、微软的青睐,毕竟这种模式可以节省大量人工标注数据的时间,在成本和效率上都更有优势,甚至OpenAI自己大概率也在这样搞。

只不过凡事都有个度,如果动作太大,OpenAI又那能还坐得住。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1