当前位置:首页|资讯|生成式AI|ChatGPT|AIGC

警惕,互联网正在被污染!生成式AI,生成垃圾?网友:上梁不正下梁歪罢了

作者:头部科技发布时间:2023-06-20

原标题:警惕,互联网正在被污染!生成式AI,生成垃圾?网友:上梁不正下梁歪罢了

文 | Congerry

AI正在加速互联网污染。

ChatGPT之后,AIGC无疑迈上新的台阶,但随着越来越多虚假的生成式内容在网上发布,导致互联网信息混乱和被污染现象愈发明显。

AI生成的虚假新闻

AI生成的虚假图片:特朗普被逮捕并被抓监狱

AI生成的错误答案,象鼻山并没有缆车

AI的网络社区Chirper:人类不得入内(人类被禁言!互联网惊现AI“鬼城”,上万AI涌入自创世界、自我进化)

人工智能生成的内容已经在网上大规模出现。5月,在线虚假信息监督机构NewsGuard警告说,它发现49个新闻网站似乎完全由人工智能编写,营销和公关机构正越来越多地将他们的文案外包给聊天机器人。

这些低质量虚假内容不仅会误导人类,也会影响未来AI模型的训练和输出质量。

近日,来自英国和加拿大的研究人员在arXiv上发表的一篇论文,探讨了现在AI生成内容污染互联网的现状。

论文地址:https://arxiv.org/pdf/2305.17493v2.pdf

研究人员发现,在使用AIGC内容训练模型时,会造成模型出现“不可逆的缺陷”,并且这种情况在变分自编码器、高斯混合模型和大语言模型中都会出现。

同样是语料,为什么AI生成的内容会导致“模型崩溃”呢?

研究人员解释称,模型崩溃是一种让学习生成模型退化的过程,它会让生成的数据污染下一代模型的训练集,从而使模型对现实产生误解。

这里还有两种特殊情况:早期模型崩溃和晚期模型崩溃。

在早期模型崩溃中,模型开始丧失关于分布尾部的信息;在晚期模型崩溃中,模型将原始分布的不同模式相互纠缠,并收敛到与原始模型相差甚远的分布,通常方差非常小。

学习过程中反馈机制的高层描述

有些数据是很少见或很特别的,比如一只有三只眼睛的猫,或者一句有双关意思的笑话。这些数据就像是数据分布的尾巴,它们不常出现,但是很有意思。

如果让 AI 用 AIGC 生成的数据来学习,它可能会忽略这些尾巴,因为它们太少了,不容易被生成出来。

这样,机器人就会丢失一些重要的信息,变得没有趣味和创造力。这就是早期模型崩溃。

有些数据是很不同或很相反的,比如一只黑猫和一只白猫,或者一句赞美和一句批评。这些数据就像是数据分布的不同模式,它们代表了不同的特征或意义。

如果让 AI 用 AIGC 生成的数据来学习,它可能会混淆这些模式,因为它们都很常见,容易被生成出来。

这样,机器人就会产生一些错误或矛盾的数据,比如一只灰色的猫,或者一句既赞美又批评的话。这就是晚期模型崩溃。

这个过程和灾难性遗忘不一样,因为灾难性遗忘是指机器人在学习新的数据时,忘记了之前学习过的数据。而模型崩溃是指机器人在用自己生成的数据来学习时,误解了之前学习过的数据。

灾难性遗忘是因为机器人记忆力不够好,而模型崩溃是因为机器人判断力不够好

这就导致使用模型生成的内容训练其他模型,会导致结果模型出现不可逆的缺陷,导致模型对现实的认知产生扭曲

论文作者之一,剑桥大学安全工程教授Ross Anderson毫不避讳地直言:“正如我们用塑料垃圾布满了海洋,用二氧化碳填满了大气层,我们即将用废话填满互联网。”

为了应对这种污染现象,一些内容平台和AI公司已经采取了一些措施。

例如,此前程序员问答社区Stack Overflow为了减缓使用ChatGPT创建的大量错误答案流入社区而临时禁用该功能。

欧盟委员会副主席乔罗娃(Vera Jourova)6月5日宣布,要求社交媒体公司标记任何人工智能生成的内容。

对于AI污染互联网的说法,有网友并不认同,认为AI出现之前互联网就充满垃圾,是互联网内容污染了AI。并且有了AI之后,人类生产垃圾的效率更高了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1