当前位置:首页|资讯|马斯克|AI大模型

X禁止第三方抓取数据,只因马斯克要亲自下场做AI

作者:三易生活发布时间:2023-09-18

原标题:X禁止第三方抓取数据,只因马斯克要亲自下场做AI

在马斯克的指挥下,X公司(前推特)近期又整出了新的花活。他们在日前悄然更新了服务条款,其中显示未经其事先的书面许可,无论出于何种目的,哪怕是用于学术研究,任何第三方都不得在X上抓取数据来训练AI大模型。这也就意味着,X已经对AI大模型关闭了大门。

事实上,马斯克几乎从未掩饰对于第三方AI大模型的恶意。早在今年3月,彼时还叫Twitter的X方面就修改了API接口的订阅价格,对于第三方访问的价格进行了大幅上调。紧接着到了4月,马斯克更是威胁要起诉微软,原因是他认为后者非法使用了Twitter的数据来训练Bing Chat的人工智能模型。当时间来到7月,马斯克指挥X方面用法律武器对四家实体提起了诉讼,指控它们从事数据抓取活动,导致其服务器资源严重紧张。

就在7月初,马斯克还搞出了一个“神操作”,宣布限制X用户每日可浏览的推文数量,其中已认证账户、未认证老账户、未认证新账户每日分别最多可浏览10000条、1000条、500条推文。并且在未注册的用户想要查看一条推文时,平台还会提示他们登录或是注册账户。

其实这一连串操作背后的原因很简单,因为如今数据几乎成为了互联网行业的“石油”,也有着极高的价值。例如ChatGPT为什么会表现得比Siri等上一代人工智能产品更聪明、更接近人类呢?单纯就是因为“力大砖飞”,而规模更大的语料库则是其中的关键。例如GPT-3就拥有的1750亿的参数量、45TB的训练数据,GPT-4的参数规模更是达到了惊人的1.8万亿。也就是说,GPT-4的数据规模是GPT-3的10倍以上。

那么训练ChatGPT的语料是哪里来的呢?抓取包括Twitter在内、一切互联网平台上用户的交互内容,这就是OpenAI方面一直在干的事情。所以某种意义上来说,ChatGPT的军功章里除了有OpenAI的一半外,也有Twitter的一份。可现实是,OpenAI在今年4月完成了一笔103亿美元的新一轮融资,估值达到270亿-290亿美元,反观X的估值在马斯克眼中,已经从收购时的440亿美元变成了200亿美元。

此消彼长之下,马斯克感到心里不平衡简直再正常不过。通过这一系列的措施,X平台所蕴含的数据甚至还变得更有价值了,因为它更难以被获取。更为重要的问题是,如今已没有更多的高质量语料可供大模型进行训练了。此前AI研究团队Epoch在今年年初发表的论文中就表明,综合目前人类语言数据的增长率,AI不出5年就会把人类所有的高质量语料用光。

由于诸如论文、书籍、新闻、代码等高质量的语料毕竟有限,有统计数据显示,高质量语料数据的存量只剩下约4.6×10^12至1.7×10^13个单词,相比当前最大的文本数据集大了不到一个数量级。而X等互联网内容平台上的低质量语料却可谓是取之不尽用之不竭,所以他们也已经是AI厂商为数不多的选择了,就等于说现在已经是卖方市场。

虽然马斯克此前的打算是将X上的这些数据卖个好价钱,毕竟一个新的营收来源对于风雨飘摇中的X来说算得上是久旱逢甘霖。事实上,限制第三方AI公司抓取数据对X的流量其实没多少影响。比如同样是因为对AI公司抓取数据收“保护费”,Reddit被用户抵制,但最终用户的抗议活动并未对该网站的流量造成重大影响。并且在Meta的Threads诞生前,X在海外社交平台中也具有不可替代性。

既然如此,为什么X突然修改了服务条款、拒绝第三方抓取数据呢,毕竟这意味着他们将无法通过这一行为向后者收费。原因当然是因为AI的魅力太大,以至于马斯克要让X亲自下场来做AI,而不是只只做AI大模型的数据供应商。就在不久前,X公司突然修改了隐私政策,并新增了如下内容,“我们可能会使用收集到的信息和公开可用的信息,来帮助训练我们的机器学习或人工智能模型。”

此前在今年7月,马斯克还成立了一家号称利用AI了解宇宙真实本质的新公司x.AI,并谷歌挖来了Christian Szegedy、Jimmy Ba等多位人工智能领域的科学家。彼时马斯克的说法,是x.AI的成立将与OpenAI、谷歌等公司竞争,试图打造一个“好的通用人工智能(AGI)”,以防止某个公司垄断AI领域。

既然已经有了属于自己的AI公司,X上的数据显然也就有了更有价值的去处,通过对数据的垄断来为x.AI的AI大模型或AGI提供差异化的竞争力,这并不难理解。所以不得不说马斯克的钞能力真的很好用,未来或许OpenAI、微软、谷歌等公司就要头疼了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1