谷歌也干了？Bard被曝使用ChatGPT的数据进行训练大模型真是一步落后步步落后

作者：极客网发布时间：2023-04-07

还记得百度文心一言被质疑是"套壳"事件吗？近日外媒爆料，谷歌似乎也这么干了。

据The Information报道，前谷歌人工智能研究员Jacob Devlin最近离开公司加入了OpenAI，但在此之前，他爆料曾向谷歌母公司Alphabet的CEO 桑达尔·皮查伊（Sundar Pichai）警告，谷歌的聊天机器人Bard正在以一种间接的方式从ChatGPT获取数据。

据Devlin描述，Bard的开发团队访问了一个名为ShareGPT的网站，该网站分享发布了大量用户通过ChatGPT获取的聊天内容。这意味着，Bard使用了ChatGPT现成的数据来“武装”自己，相当于窃取了ChatGPT的早期成果。

对此，谷歌发言人 Chris Pappas 很快向媒体发布声明，坚决而明确地表示，"Bard没有使用任何ShareGPT或ChatGPT的数据进行训练。（“Bard is not trained on any data from ShareGPT or ChatGPT.”）"

对于媒体追问谷歌Bard此前是否曾经利用过ChatGPT的数据，Pappas拒绝回答，坚称自己能说的只是如上声明内容。

这一事件不由得令人想起日前百度文心一言遭遇的类似质疑。

3月下旬，有网友发文质疑百度文心一言作画实质上是“把中文句子机翻成英语单词，拿去用国外刚刚开源的人工智能Stable Diffusion生成了图画，再返给你，说是自己画的。”

当时网友举的例子包括在文心一言输入指令，要求其画出“鼠标和总线”，文心一言作出的画面是“老鼠和公共汽车”，因为“鼠标”和“总线”对于的英文是“mouse”和“bus”。

对此百度方面也是紧急回应。3月23日，百度发布声明称，文心一言完全是百度自研的大语言模型，文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中，百度使用的是全球互联网公开数据，符合行业惯例。同时表示文心一言正在使用过程中不断学习和成长，希望大家给自研技术和产品一点信心。

随后，百度对类似问题做了修正，用户很快发现相关问题已经不存在，表明类似情况正随着用户反馈而被修正。

对于百度文心一言的问题，业界专家也表示使用网络公开数据是行业基本操作。这个行业存在一批专门为AI应用训练数据的中间服供商，它们基于公开数据标注训练的AI数据集确实存在同时被多个AI应用采用的情况。

不过业内基本操作在消费者层面可能不会得到同样的理解和认同，此番谷歌Bard被曝使用ChatGPT的数据进行训练也在国外引发轩然大波，不少网友指责谷歌是在盗窃OpenAI的成果。

包括网站信息在内的网络公开数据很容易被技术手段抓取，这对搜索引擎出身的谷歌更是小菜一碟。加之这样的爆料来自谷歌刚离职的员工，可信度自然提升了一大截。

不过也有网友指出，Devlin离开谷歌AI团队后转而就加入了竞争对手OpenAI，其爆料难免涉及商业利益，真实度有待进一步确认。

不过在极客网看来，不管这样的事件真实度如何，都充分表明一个“铁律”：AI大模型领域真是一步落后步步落后，后来者想要赶上先发者是水平，非常不容易。

这背后的影响因素有很多，包括算法、算力，以及训练数据的质量等。更重要的是，先发的AI大模型在探明成功之路后，便会一直训练、一直进化，不会停下来等待追赶者。

正因为如此，OpenAI的GPT已经很快由GPT-3升级到了GPT-4时代，为此还引发了包括马斯克在内的多位名人联名发布公开信，呼吁大公司暂停大模型的研发速度，避免威胁人类。

李彦宏此前面对媒体采访时也表示，尽管在某些领域表现更出色，总体看百度文心一言与OpenAI ChatGPT的水平还有一两个月的差距。他同时指出，ChatGPT早期刚推出时外界反馈比文心一言还要糟糕。

对于谷歌Bard来说，还有一个不利消息是据传谷歌的 Brain 人工智能团队正在与另一家隶属于 Alphabet 的人工智能公司 DeepMind 合作，共同进行一个代号为 Gemini 的新项目，目标是开发出一个能与 OpenAI的GPT竞争的产品。这似乎在暗示，谷歌对Bard并不自信，希望开发更领先的AI大模型，打造更先进的AI聊天机器人。