当前位置:首页|资讯|谷歌|字节跳动|OpenAI|百度|文心一言

谷歌Gemini“夺舍”文心一言,天下大模型一大抄?

作者:三易生活发布时间:2023-12-20

原标题:谷歌Gemini“夺舍”文心一言,天下大模型一大抄?

就在字节跳动被OpenAI封号的罗生门还没落幕之时,这边谷歌的新王牌Gemini似乎也“暴雷”了。日前微博大V@阑夕 爆料称,用中文向谷歌Gemini Pro提问时,其会直接表示自己是百度的文心一言。紧接着在更多的网友提问下,Gemini Pro一会认为自己是小爱同学,一会又承认自己是悟道大模型开发团队北京智源做的。

不仅如此,有喜欢整活的网友对Gemini Pro进行了英文提问,Gemini Pro又称自己是OpenAI训练的。此事在经过了十几个小时的发酵后,谷歌方面似乎是反应了过来,现在大家再用中文“调戏”Gemini Pro时,它已经不再承认自己与文心一言存在任何关系了。

其实不仅仅是谷歌的Gemini Pro,马斯克旗下xAI推出的AI聊天机器人Grok也曾在与用户对话时突然表示,“我无法完成您的请求,因为它违反了OpenAI的用例政策。”

如此种种反常的情况,用一句大模型出现“幻觉”现象来解释显然就有些勉强了,而是让大模型圈子流行互相借鉴可能才更加合适,也就是说这些公司不约而同的选择了互相薅羊毛。有业内人士就认为,谷歌用于训练Gemini Pro的数据大概率是使用了百度文心一言的输出结果,并以此来蒸馏自家的Gemini Pro,但也有一定的可能性是直接抓取了中文互联网的公开内容。

先来看看概率更高的第一种情况。目前在AI大模型赛道,后发大模型用OpenAI的GPT-4进行辅助已然成为了常规操作。原因其实很简单,毕竟用其他大模型来蒸馏自家大模型更省钱。众所周知,OpenAI的ChatGPT就是靠时薪2美元的海外外包数据清洗人员,完成了史无前例的1750亿参数量、45TB训练数据。

使用外包人员确实可以降低成本,但人工清洗训练集的效率太低,例如OpenAI的ChatGPT就有两年半的练习时长,但在ChatGPT一鸣惊人后,其他大模型不可能有这么长的时间去打磨。这时候利用成熟AI大模型输出的结果既省钱又有效率,对于信奉效率就是生命的互联网大厂来说,又怎么会对此无动于衷呢。

至于说,谷歌为什么会使用文心一言输出的结果?答案或许是这与百度掌握有大量质量较高的非公开中文语料库,有着密切的关系。比如说百度方面此前在2019年5月,就曾以“数据系统升级”为由,将2017年1月1日前所有的贴子都“藏了起来”,直接将百度贴吧用户十几年积累的数据从公开转为私有。而谷歌在训练Bard时找了ChatGPT、训练Gemini时找文心一言,何尝又不是一种路径依赖。

而另一种小概率的推测背后,指向的则是中文互联网语料已经开始被AI输出的内容“污染”了。得益于AI聊天机器人的高效,其诞生一年以来,数以亿计的用户完成了与ChatGPT、New Bing、文心一言,以及其他AI聊天机器人的对话,这些内容自然也开始陆续出现在互联网上。不过这一趋势也不可避免,毕竟各大厂商的大模型已经或准备商用,AI大模型与人类共享互联网世界几乎是必然的事情。

值得一提的是,虽然有网友认为谷歌是中文互联网大量低质量内容泛滥的受害者,但这句话其实既对、也不对。因为这种观点是默认了英文互联网世界的内容更优质,但大家以为海外的情况会好很多就大错特错了。实际情况是随着Discord的崛起,小体量互联网产品直接在Discord上向用户提供服务,已经成为了潮流。

所以从某种意义上来说,Discord也变得与微信、抖音等超级App越来越相似,Discord上的个人服务器几乎就与小程序没什么两样。大家也发现相比于传统的BBS,前者提供的交流环境更符合现代人的需求,直接导致海量BBS迁移到了Discord。且不提在搬迁过程中损失的数据,从公开的BBS到私有的Discord服务器,数据同样也完成了一次从公开到私有的转化。

其实高质量语料的匮乏是一个世界性的问题,而非中文互联网独有,而造成这一切的原因则是移动互联网的代表——App。虽然高质量语料依旧是有的,但它们比以往更分散、也更难获取了。未来握有高质量数据的互联网平台只会越来越吃香,也不仅仅只有英伟达会靠着AI大模型厂商大赚一笔,可能各大内容平台也会跟着捞上一票。

当然,无论哪一种猜测都无法掩盖谷歌确实丢人现眼了,直接薅文心一言的羊毛被抓现行已经很难看,更难看的情况则是Gemini的数据库被污染了。要知道谷歌可是做搜索引擎起家的,而搜索引擎的核心技术就包括了数据清洗,将爬虫抓取数据中存在的缺失值、异常值(离群点)、重复值去除,就都是数据清洗的一部分,结果在自家的明星产品Gemini上失手,这可就称得上是“打了一辈子雁,到头来被雁啄了眼睛。”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1