字节OpenAI账号被封禁，这事儿到底谁错了？

作者：差评发布时间：2023-12-19

OpenAI

不知道各位差友听说没，字节的 OpenAI 账号，被封了......

根据 OpenAI 的说法，就在上周五，他们暂停了字节的账号，具体发生了啥，现在也还在进一步调查中。

世超也去查了查，发现事情，是由外媒 The Verge 的一则报道引起的。

据报道，字节跳动正在悄咪咪地用 OpenAI 的 API ，做一些 “ 不太光彩 ” 的事儿。

和大伙们用 AI 水周报，糊弄领导不一样，按照 The Verge 的说法，字节直接在用 OpenAI训练自家的大模型。

一般遇到类似传言，世超不会太在意，毕竟套壳大模型、用别家大模型训练自家大模型等等，相关的消息隔三岔五就会来那么一次。

而且都是一些风言风语，没啥实锤，也没啥后续。

但这次不一样了，报道里的内部消息，至少看起来都贼真。

他们说是弄到了字节内部泄露的一份文件。

里面主要讲了字节的大模型项目—— “ 种子计划 ” 的开发过程，几乎在每个阶段，包括训练还有评估，字节的大模型都用了 OpenAI 的 API 。

另外，像是怎么 “ 通过数据脱敏，不被人抓到小尾巴 ” 这类的内部飞书聊天记录，也都给曝出了。

再加上 OpenAI 的直接封号，还真有点坐实了报道里内容的味道。

反正一时间，网友们都纷纷出来吃瓜，各种阴阳国产大模型的言论都出来了——

“ 怪不得国产大模型们一个个都开发得这么快，原来是在偷师 GPT 啊？ ” “ 国内的大模型都一股 GPT 味儿，原来问题出在这儿。 ”

国内媒体们都一股脑儿地转载报道，话题还一度飙上了知乎热榜。

而大伙们也应该发现了，争议的中心在于，字节可能调用 OpenAI API给自家大模型生成训练数据。

说实话，相较与简单粗暴，甚至有些无底线的套壳，这手段，其实文明了不少了......

在大模型领域里，我们一般叫它大模型的知识蒸馏。

从名字来看，估计各位差友也能猜出来个一二三，就是用已经训练得差不多的先进大模型，生成一些优质语料，然后再把生成的这些语料喂给更小模型。

说好听点，大模型的知识蒸馏，是帮大家省了前期标注数据、提取优质语料库的功夫，说难听点，这就是在吃别人已经嚼烂的食物，好偷懒省力。

看到这儿，肯定有人会说了，大模型做出来，不就是让人用的么，用户爱咋用咋用，这波字节没做错啥啊？

话是这么说，但是 OpenAI 早就料到了这一手，为了防止自己的数据被薅、被蒸馏， OpenAI 在自家的服务协议早就埋伏上了。

不只有企业，包括个人开发者在内， OpenAI 都禁止他们用 OpenAI 的大模型，去开发竞品。

在普通用户那儿， OpenAI 也没放过。

它给 ChatGPT 和 DALL·E 都套上了枷锁，同样也不让用输出的内容，训练与 OpenAI 竞争的模型。

只要你违反上面那些规定了，按照官方的说法，就只是提前知会一声，随时终止服务。

这些条例就跟唐僧念符之下的紧箍咒一样，越来越紧。。。咱明眼人也都能看出 OpenAI 在自家 “ 数据安全 ” 这块是下狠招了。

虽说字节用的 API 不是从 OpenAI 这边直接买的，而是买的微软 Azure 上的云服务 Azure OpenAI 。

但从微软那边买，同样也是受这个协议约束。

或许是因为这些原因，才有了开头先封号处理，再进一步调查字节的局面。

看着这一盆盆 “ 脏水 ” 泼过来，字节也没干坐着，在周末加班一一给出了回应。

首先，他们称在开发大模型的时候，只是在初期探索阶段用了 GPT 的 API 服务，并且探索阶段的模型还只是测试，没有上线对外使用。

并且根据字节的说法，今年四月份他们内部就明确规定，不能用 GPT 生成的数据训练自己的大模型。

更重要的是，他们说九月份内部还搞了个检查，主要的任务就是看他们的训练数据和 GPT 的相似程度。

未来几天里，他们还准备再来一次全面检查，以确保严格遵守相关服务的使用条款。

到现在为止，反正各方的回应是一箩筐，至于字节到底有没有违反 OpenAI 的服务协议，从现在的信息来看我们也做不出啥判断，只能等后续双方沟通的结果。

不过，在训练大语言模型这块，数据来源的争议其实一直都蛮大。

OpenAI 训练大模型的时候，也曾在数据上栽了不少跟头。

就比如 ChatGPT ，它主要就是爬取一些社交媒体网站、或者论坛、贴吧上的数据。

刚开始，这些数据他们都是免费爬的，但后来 OpenAI 的 ChatGPT 还有 DALL·E 慢慢出圈，一些问题就连带着浮出水面了。

这两个大模型爆火的那段时间， OpenAI 吃的官司是一个接一个。

文生图大模型被各种图片网站、艺术家们起诉，大语言模型被社交平台上的博主索赔......

与此同时，各大平台也都开始注重数据价值，像是美版贴吧 Reddit ，还有程序员问答网站 StackOverflow 等等这种优质语料多的网站，都开始设置付费门槛，交钱才能爬取数据。

但在此时 OpenAI 的大模型已经发育起来了，过去网络上的数据该爬的也都爬了。

这下就苦了那些后来者，前期还不仅要做一些标注语料库的重复劳动，还得付费再爬一遍数据。

不过世超觉得，这次真如 The Verge 报道中说的，那这个 “ 锅 ” 铁定还是要字节来背，毕竟相关的条例，早就写在协议里了，拿人家的手短，人家还真有理。

最后，世超想说的是，自从大模型流行以来，业内类似的争议也好、丑闻也好，其实基本就没断过。

就比如前不久，李开复的大模型 Yi 被扒出是 “ 套壳 ” Meta 的 LLaMA ，虽说后者也是开源的，但要用也得注明。

但李开复还是在网上舆论发酵之后，才不痛不痒地回应了句命名疏忽。。。

更离谱的是，大模型内部还和机圈儿一样，流行起了跑分热。

有的企业为了让自己的模型分数更好看一点，直接搞起了小动作。

前段时间谷歌的Gemini，为了让自家模型的分数比 GPT-4 好看，在测试方法上就动了些手脚。

国内某团队也曾发布过技术报告，里面明晃晃地指出了大模型刷榜的乱象。

他们直接把测评的题目，先喂给了自家大模型。

相当于是开卷刷榜，让自家的大模型在一群“ 做题家 ”中脱颖而出。

当然，新兴领域一开始都是乱象丛生，有这些丑闻也不是啥新鲜事儿。

世超也希望，未来，大模型厂商们能主打一个诚实，别今天暴打 GPT-4 ，明天又暴打 OpenAI 的了。

还有用了谁谁谁的数据，用了哪些开源资源，也大大方方承认，作为一个追赶者、学习者，其实没啥丢脸的。。

再回到字节和 OpenAI 这档子事儿，要是真相水落石出，字节确实是被冤枉，世超也希望 OpenAI 和媒体们能立马化身墙头草，还字节一个清白。

少一些套路，多一些真诚，大模型可以有幻觉，人嘛，还是实诚点好。

图片、资料来源：

网络

TheVerge，ByteDance is secretly using OpenAI’s tech to build a competitor

本文来自微信公众号“差评”（ID:chaping321），作者：松鼠，编辑：江江，36氪经授权发布。

近期资讯

我国首个海洋油气全生命周期智能装备制造基地在滨海新区机械完工

作为天津市智能建造示范项目，12月25日，我国首个海洋油气全生命周期智能装备制造基地在滨海新区机械完工，标志着基地从现场安装调试阶段转入试生产阶段，投产后主要开展海上平台特殊螺纹油套管加工制造、设施设备一体化运维等业务。该基地由中国海油下属单位中海油能源发展股份有限公司投资建设，总占地面积约27万平方米。

金台资讯 2024-12-27

首发369元酷凛霜界360 ARGB粉色限定版上市：无限镜灯效外环

快科技12月27日消息，酷凛霜界360ARGB粉色限定版水冷目前已经上市，首发369元。自COMPUTEX2019首次推出粉色限定版水冷散热产品以来，霜界360ARGB粉色限定版属于第四代设计。这次ID-Cooling在冷头侧面、冷头顶部无限镜灯效外环、风扇扇叶、以及风扇侧框位置加入了粉色，为用户装机提供了新的选择。

驱动之家 2024-12-27

安徽合肥杀出超级独角兽：年入5.56亿全国第一

它的主攻方向是：人工智能+医疗解决方案，涵盖基层医疗服务、医院服务、患者服务等多。具体来看，按收入计算，其核心产品智医助理在中国基层医疗机构临床决策支持系统（CDSS）市场中名列第一（2023年），市场份额高达61.5%。飞的子公司。飞医疗带来竞争压力。

铅笔道pencilnews 2024-12-27

一加 Ace 5 系列发布，主攻游戏性能

12月26日，一加正式推出了主打游戏体验的一加Ace5系列手机，包括一加Ace5和一加Ace5Pro两款机型，售价分别为2299元起和3399元起。此次一加Ace5系列在设计和配置上全面升级，采用全新直屏设计、同档唯一陶瓷机身，并首发1.5K第二代东方屏，搭配行业最高能量密度冰川电池，提供超长续航。

动点科技 2024-12-27

光明网 2024-12-27

网易云音乐2024年度听歌报告发布：全新推出双人年报、歌手手写信等玩法

12月27日，网易云音乐2024年度听歌报告正式上线，迅速刷屏朋友圈，带领用户穿梭于过去一年的音乐记忆。今年的听歌报告以“人生是旷野，音乐也是”为主题，不仅充分延续往年的特色，更引入了双人年报、歌手手写信等创新玩法，及月份听歌偏好、年度精神状态等全新维度数据信息，为用户提供互动性更强、更细腻的报告体验。

读娱官网 2024-12-27

Mate 70 Pro+评测：全国产产业链的开山之作，微信、企业微信上线

另外日常办公协同需要的钉钉、飞书主要功能也适配完毕，12月23日，企业微信鸿蒙版也已上架，企业微信、钉钉和飞书等企业沟通协同系统都已上线，纯血鸿蒙HarmonyOSMEXT已经可以满足大多数人工作和生活需要。

IT观察 2024-12-27

2025年AI智能眼镜市场渗透率有望突破60%

【环球网科技综合报道】随着智能硬件市场的蓬勃发展，智能音频眼镜作为新兴潮品，其热度持续高涨。12月27日消息，据洛图科技（RUNTO）最新线上监测数据显示，2024年10月和11月，智能音频眼镜在中国传统主流电商平台的销量分别达到1.4万台和1.7万台，同比分别增长23.7%和12.4%。

环球网科技 2024-12-27

字节OpenAI账号被封禁，这事儿到底谁错了？

推荐体验

相关资讯

把人脑塞进机器人里，这事儿还真被干成了？

科技周报|首批AI失业者已出现，OpenAI账号被封禁

美国院士沃尔夫勒姆谈ChatGPT的局限性：深度计算这事儿它还做的不好

坪山是深圳新兴产业和高科技产业中心这事儿，连ChatGPT都知道了！

辛巴快手直播功能被封禁；OpenAI将发布新AI模型；字节再试硬件 | 晚报

近期资讯

我国首个海洋油气全生命周期智能装备制造基地在滨海新区机械完工

首发369元酷凛霜界360 ARGB粉色限定版上市：无限镜灯效外环

安徽合肥杀出超级独角兽：年入5.56亿全国第一

一加 Ace 5 系列发布，主攻游戏性能

15大机构十年研究理论证明：无约束AI必然超越人类，创造能力也更强！

雷军砸千万年薪，挖来95后“天才少女”

超领先！首座智慧绿色“超充港”来了

网易云音乐2024年度听歌报告发布：全新推出双人年报、歌手手写信等玩法

Mate 70 Pro+评测：全国产产业链的开山之作，微信、企业微信上线

2025年AI智能眼镜市场渗透率有望突破60%

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响