还记得百度文心一言被质疑是"套壳"事件吗?近日外媒爆料,谷歌似乎也这么干了。
据The Information报道,前谷歌人工智能研究员Jacob Devlin最近离开公司加入了OpenAI,但在此之前,他爆料曾向谷歌母公司Alphabet的CEO 桑达尔·皮查伊(Sundar Pichai)警告,谷歌的聊天机器人Bard正在以一种间接的方式从ChatGPT获取数据。
据Devlin描述,Bard的开发团队访问了一个名为ShareGPT的网站,该网站分享发布了大量用户通过ChatGPT获取的聊天内容。这意味着,Bard使用了ChatGPT现成的数据来“武装”自己,相当于窃取了ChatGPT的早期成果。
对此,谷歌发言人 Chris Pappas 很快向媒体发布声明,坚决而明确地表示,"Bard没有使用任何ShareGPT或ChatGPT的数据进行训练。(“Bard is not trained on any data from ShareGPT or ChatGPT.”)"
对于媒体追问谷歌Bard此前是否曾经利用过ChatGPT的数据,Pappas拒绝回答,坚称自己能说的只是如上声明内容。
这一事件不由得令人想起日前百度文心一言遭遇的类似质疑。
3月下旬,有网友发文质疑百度文心一言作画实质上是“把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能Stable Diffusion生成了图画,再返给你,说是自己画的。”
当时网友举的例子包括在文心一言输入指令,要求其画出“鼠标和总线”,文心一言作出的画面是“老鼠和公共汽车”,因为“鼠标”和“总线”对于的英文是“mouse”和“bus”。
对此百度方面也是紧急回应。3月23日,百度发布声明称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中,百度使用的是全球互联网公开数据,符合行业惯例。同时表示文心一言正在使用过程中不断学习和成长,希望大家给自研技术和产品一点信心。
随后,百度对类似问题做了修正,用户很快发现相关问题已经不存在,表明类似情况正随着用户反馈而被修正。
对于百度文心一言的问题,业界专家也表示使用网络公开数据是行业基本操作。这个行业存在一批专门为AI应用训练数据的中间服供商,它们基于公开数据标注训练的AI数据集确实存在同时被多个AI应用采用的情况。
不过业内基本操作在消费者层面可能不会得到同样的理解和认同,此番谷歌Bard被曝使用ChatGPT的数据进行训练也在国外引发轩然大波,不少网友指责谷歌是在盗窃OpenAI的成果。
包括网站信息在内的网络公开数据很容易被技术手段抓取,这对搜索引擎出身的谷歌更是小菜一碟。加之这样的爆料来自谷歌刚离职的员工,可信度自然提升了一大截。
不过也有网友指出,Devlin离开谷歌AI团队后转而就加入了竞争对手OpenAI,其爆料难免涉及商业利益,真实度有待进一步确认。
不过在极客网看来,不管这样的事件真实度如何,都充分表明一个“铁律”:AI大模型领域真是一步落后步步落后,后来者想要赶上先发者是水平,非常不容易。
这背后的影响因素有很多,包括算法、算力,以及训练数据的质量等。更重要的是,先发的AI大模型在探明成功之路后,便会一直训练、一直进化,不会停下来等待追赶者。
正因为如此,OpenAI的GPT已经很快由GPT-3升级到了GPT-4时代,为此还引发了包括马斯克在内的多位名人联名发布公开信,呼吁大公司暂停大模型的研发速度,避免威胁人类。
李彦宏此前面对媒体采访时也表示,尽管在某些领域表现更出色,总体看百度文心一言与OpenAI ChatGPT的水平还有一两个月的差距。他同时指出,ChatGPT早期刚推出时外界反馈比文心一言还要糟糕。
对于谷歌Bard来说,还有一个不利消息是据传谷歌的 Brain 人工智能团队正在与另一家隶属于 Alphabet 的人工智能公司 DeepMind 合作,共同进行一个代号为 Gemini 的新项目,目标是开发出一个能与 OpenAI的GPT竞争的产品。这似乎在暗示,谷歌对Bard并不自信,希望开发更领先的AI大模型,打造更先进的AI聊天机器人。