谷歌Bard被曝剽窃ChatGPT？BERT一作跳槽OpenAI，揭惊天内幕

作者：新智元发布时间：2023-03-31

谷歌 OpenAI ChatGPT Bard

谷歌有大麻烦了！外媒爆料说，Bard的训练数据部分来自ChatGPT。谷歌可能跳到黄河里也洗不清了。

3月29日，外媒The Information曝出了一个惊天大瓜！

谷歌的离职员工、已跳槽OpenAI的顶级研究员竟然曝出——Bard竟是用ChatGPT的数据训练的！

如果事情为真，这可真算得上是谷歌的顶级丑闻了。

对抗ChatGPT的AI，竟然用的是ChatGPT的训练数据，这可太讽刺了。

并且，这也明显违反了OpenAI的服务条款——要知道，微软拥有将ChatGPT用于商业目的的独家许可，谷歌因此很可能要吃官司。

训练Bard，谷歌竟「借用」了ChatGPT的数据？

Jacob Devlin这个名字，可谓如雷贯耳。谷歌在2018年发表的BERT模型的论文，Devlin就是一作。

正是这篇论文，引发学术界AI研究的热潮。而Devlin的研究，可以说为谷歌和OpenAI的语言模型奠定了很大的基础。

论文地址：https://arxiv.org/pdf/1810.04805.pdf

虽然Devlin跳槽到OpenAI，是今年1月的事，我们很早就知道了。

但是Bard用ChatGPT数据训练的事，却是最近才曝出。

根据The Information的报道，Devlin从谷歌离职的原因之一，就是他发现谷歌用于对抗ChatGPT的种子选手——Bard在训练时，用的正是ChatGPT的数据。

他警告了CEO劈柴和其他高管，告诉他们Bard团队正在使用来自ShareGPT的信息训练，随后辞职。

爆料一发出，业界人士们都炸了。

有网友评论道：「这可是业内大忌啊。」

而当事人之一、ShareGPT的创建人Steven Tey表示，其实自己早就知道这个事了，并且此事早就在谷歌内部传开，许多员工对此很不满，很担忧。

随后，他又发帖说，这下，猫可从口袋里跑出来了吧。（谚语，指无意间泄密）

这也是为什么我们上周关闭了ShareGPT的Explore页面，其中有超112k的共享对话数据。

太疯狂了！

其实是个「套壳」ChatGPT？

ShareGPT，是Steven Tey和Dom Eccleston在2022年12月共同创建的一个Chrome扩展，能够捕捉和分享人们在ChatGPT中的对话内容。

通过捕获他人与ChatGPT的完整对话，ShareGPT能生成一个URL。通过这个扩展，人们可以直接分享URL，省去了截取多个对话截图的时间。

也就是说，如果用ShareGPT的信息训练Bard，很可能把Bard训练成一个「翻版ChatGPT」。

据内部人士透露，Devlin发出警告后，谷歌立马停止了利用这些数据来训练Bard。

但在外媒The Verge就该事件询问谷歌发言人Chris Pappas时，他却否认了。

他很肯定地说，「Bard的训练没有使用任何来自ShareGPT或ChatGPT的数据。」

到底用没用呢？此事目前还是个罗生门。

有意思是，OpenAI此前就经常陷入争议，许多网站和艺术家指控ChatGPT是从自己这里窃取的数据。

而今天，这是第一次有人指控别的公司从ChatGPT窃取数据。

就是说，贵圈真的是个圈。

谷歌的反击，有些狼狈

此前，大火的ChatGPT整合进必应中，已经导致了谷歌的股价下跌。

搜索巨头地位被撼动的谷歌，正在不顾一切地迎头追赶。

结果Bard在发布会上当场出错，让谷歌沦为笑柄，市值蒸发1000亿。

遮遮掩掩了一个多月，Bard终于正式开放。大家使用后发现，Bard正确率不算高，写代码也不太行，比起ChatGPT来，要更拉跨一些。

而最关键的问题其实是，Bard已经晚了一步。即使正式发布，媒体和坊间都反响了了，似乎无人在意。

而Devlin离职谷歌、加入OpenAI的选择，更是寓意深刻——既然谷歌如此严重依赖ShareGPT，那大神就干脆加入OpenAI，不用中间商。

而更严重的是，微软拥有将ChatGPT用于商业目的的独家许可。

因此，Devlin担心谷歌以这种方式使用数据，违反了OpenAI的服务条款。如果此事得到证实，谷歌很可能面临诉讼。

当然，OpenAI也并不清白。训练ChatGPT的数据，也是从公共互联网上「借用」的。这些内容，其实也未经艺术家、作家、摄像师等人类创作者的许可。

虽然微软最近确实宣布了一些补偿计划，要补偿为Bing Chat的答案做出贡献的内容创作者。

但说到底，无论是谷歌还是微软，它们唯一真正关心的事情，还是股东的利润。

谷歌大脑和DeepMind联姻

而The Information的报道中除了有上面那个大瓜，还有另一个瓜。

ChatGPT自去年11月ChatGPT爆火之后，谷歌和OpenAI之间的军备竞赛，就日益剑拔弩张。

现在，为了对抗ChatGPT，谷歌的两个最强「大脑」——DeepMind和Google Brain，已经选择了强强联手。

据两位知情人士透露，DeepMind和Google Brain最近几周正在开发与OpenAI竞争的另一产品，内部代号为Gemini（双子座）。

Sundar Pichai、Demis Hassabis和Jef Dean（从左起）

自谷歌2014年收购DeepMind以来，DeepMind先后发布了几款令人世人惊艳的人工智能，比如AlphaGO、AlphaCode、AlphaFold。可以说，风头远远超过了谷歌。

自ChatGPT发布后，谷歌大脑时不时更新一些进展，然而DeepMind一直还公布近来的大动作。

而现在，Alphabet这两个人工智能实验室的员工都认为，OpenAI已经远远超越了他们。再加上，许多关键工程师和研究人员纷纷流向OpenAI，让谷歌内部人士纷纷堪忧。

加上上周Bard向部分用户开放后，表现又比不上ChatGPT。

眼看自己亲手培养的孩子Bard不如人意，谷歌研究人员干脆再要一个，目标是要能与GPT-4一战。

由此看来，Gemini（双子座）重要性不言而喻。

其中一位知情人士表示，谷歌大脑的负责人、谷歌资深人工智能研究主管Jef Dean已经在该项目中都自己手动敲代码了。

可以说，Gemini的诞生是被迫联姻的孩子。因为，此前DeepMind和Google Brain这两个实验室很少相互合作或共享计算机代码。

一位知情人士表示，但现在，由于双方都希望开发自己的机器学习模型，以与OpenAI竞争，而且需要大量的计算能力。因此他们别无选择，只能合作。

如今，这一努力让谷歌在搜索和云方面等无数团队的产品路线，因ChatGPT的竞争而受到了动摇。

没钱赚，Google Assistant重组

这不，就在近日，Google Assistant部门面临重组，以专注研发Bard。

在给员工的一份备忘录「Changes to Assistant and Bard teams」中，列出了许多高管变动。

一位Google Assistant工程副总裁Amar Subramanya现在将领导Bard。而另一位工程副总毛建昌「因个人原因」离开了谷歌，谷歌商务部门副总裁Peeyush Ranjan成为了接盘者。

Google Assistant业务部门副总裁兼负责人Sissie Hsiao在这份备忘录中称，「鉴于Bard团队的不懈努力，我们希望继续支持并执行未来研究项目。」

这听起来像Assistant团队现在支持谷歌以对抗ChatGPT「红色代码」的战斗。

Google Assistant注定是失败了吗？其实，越来越多的证据表明该部门正在走下坡路：

从2016年到2021年，Google Assistant在五年内发布了八个主要的扬声器/智能显示器硬件，但硬件发布似乎已经停止。上一次硬件发布是在2021年3月。那是整整两年前的事了。
2022年，谷歌从两个内部产品线中移除了Assistant支持：Nest Wi-Fi和Fitbit可穿戴设备。
2022年还看到了The Information的一份报告，该报告称谷歌希望「减少投资开发其用于汽车和非谷歌制造的设备的Google Assistant语音辅助搜索」。
Google Assistant的驾驶模式于2022年关闭。
Google Assistant的「Duplex on the web」功能也于2022年关闭。
Google Assistant的一项核心独特功能Reminders即将被关闭，取而代之的是Google Task Reminders。
Google Assistant从来没有赚钱过。硬件以成本价出售，没有广告，而且没有人支付月费来使用 Google 助理。处理所有这些语音命令的服务器成本也很高，尽管一些较新的设备已经以隐蔽的成本削减举措转移到设备上处理。Assistant 最大的竞争对手亚马逊 Alexa 也处于同一条船上，每年亏损100亿美元。

从Google Assistant这些年的发展也可以看出，谷歌的运作方式真的太封建了。

这家公司似乎有一种约定俗成的观点，即让项目在现有产品（如地图或助手）的支持下运转，才是一种可靠的挣钱方式。

因此，尽管公司里已经囤积了许多世界上最优秀的AI研究人员，但他们的才能似乎只能受困于企业战略的轨道。

在Bard之前，谷歌这些年在AI市场化上的进步，无非就是不断改进Google Assistant等一些小玩意，用AI做一些边角料。

这样一个巨头，本应是顺应趋势、推动潮流、搅动世界的。