警惕，互联网正在被污染！生成式AI，生成垃圾？网友：上梁不正下梁歪罢了

作者：头部科技发布时间：2023-06-20

文 | Congerry

AI正在加速互联网污染。

ChatGPT之后，AIGC无疑迈上新的台阶，但随着越来越多虚假的生成式内容在网上发布，导致互联网信息混乱和被污染现象愈发明显。

AI生成的虚假新闻

AI生成的虚假图片：特朗普被逮捕并被抓监狱

AI生成的错误答案，象鼻山并没有缆车

AI的网络社区Chirper：人类不得入内（人类被禁言！互联网惊现AI“鬼城”，上万AI涌入自创世界、自我进化）

人工智能生成的内容已经在网上大规模出现。5月，在线虚假信息监督机构NewsGuard警告说，它发现49个新闻网站似乎完全由人工智能编写，营销和公关机构正越来越多地将他们的文案外包给聊天机器人。

这些低质量虚假内容不仅会误导人类，也会影响未来AI模型的训练和输出质量。

近日，来自英国和加拿大的研究人员在arXiv上发表的一篇论文，探讨了现在AI生成内容污染互联网的现状。

论文地址：https://arxiv.org/pdf/2305.17493v2.pdf

研究人员发现，在使用AIGC内容训练模型时，会造成模型出现“不可逆的缺陷”，并且这种情况在变分自编码器、高斯混合模型和大语言模型中都会出现。

同样是语料，为什么AI生成的内容会导致“模型崩溃”呢？

研究人员解释称，模型崩溃是一种让学习生成模型退化的过程，它会让生成的数据污染下一代模型的训练集，从而使模型对现实产生误解。

这里还有两种特殊情况：早期模型崩溃和晚期模型崩溃。

在早期模型崩溃中，模型开始丧失关于分布尾部的信息；在晚期模型崩溃中，模型将原始分布的不同模式相互纠缠，并收敛到与原始模型相差甚远的分布，通常方差非常小。

学习过程中反馈机制的高层描述

有些数据是很少见或很特别的，比如一只有三只眼睛的猫，或者一句有双关意思的笑话。这些数据就像是数据分布的尾巴，它们不常出现，但是很有意思。

如果让 AI 用 AIGC 生成的数据来学习，它可能会忽略这些尾巴，因为它们太少了，不容易被生成出来。

这样，机器人就会丢失一些重要的信息，变得没有趣味和创造力。这就是早期模型崩溃。

有些数据是很不同或很相反的，比如一只黑猫和一只白猫，或者一句赞美和一句批评。这些数据就像是数据分布的不同模式，它们代表了不同的特征或意义。

如果让 AI 用 AIGC 生成的数据来学习，它可能会混淆这些模式，因为它们都很常见，容易被生成出来。

这样，机器人就会产生一些错误或矛盾的数据，比如一只灰色的猫，或者一句既赞美又批评的话。这就是晚期模型崩溃。

这个过程和灾难性遗忘不一样，因为灾难性遗忘是指机器人在学习新的数据时，忘记了之前学习过的数据。而模型崩溃是指机器人在用自己生成的数据来学习时，误解了之前学习过的数据。

灾难性遗忘是因为机器人记忆力不够好，而模型崩溃是因为机器人判断力不够好。

这就导致使用模型生成的内容训练其他模型，会导致结果模型出现不可逆的缺陷，导致模型对现实的认知产生扭曲。

论文作者之一，剑桥大学安全工程教授Ross Anderson毫不避讳地直言：“正如我们用塑料垃圾布满了海洋，用二氧化碳填满了大气层，我们即将用废话填满互联网。”

为了应对这种污染现象，一些内容平台和AI公司已经采取了一些措施。

例如，此前程序员问答社区Stack Overflow为了减缓使用ChatGPT创建的大量错误答案流入社区而临时禁用该功能。

欧盟委员会副主席乔罗娃(Vera Jourova)6月5日宣布，要求社交媒体公司标记任何人工智能生成的内容。

对于AI污染互联网的说法，有网友并不认同，认为AI出现之前互联网就充满垃圾，是互联网内容污染了AI。并且有了AI之后，人类生产垃圾的效率更高了。

相关资讯

AI，正在疯狂污染中文互联网

最近大家不是都热衷于向AI咨询嘛，有位网友就问了Bing这么一个问题：但自打ChatGPT出现之后，涌现了大量让人觉得“很对”的答案；而有专业知识背景的用户数量是有限，没法把这些生成的答案都看个遍。许多用户在…

ChatGPT

量子位 2023-06-18

AI正在疯狂污染中文互联网！

但自打ChatGPT出现之后，涌现了大量让人觉得“很对”的答案；而有专业知识背景的用户数量是有限，没法把这些生成的答案都看个遍。许多用户在这种栏目之下会提出各式各样的问题，ChatGPTbot也是有问必答。探…

ChatGPT

AI狐头条 2023-06-27

AIGC大肆污染互联网，防范垃圾内容要“用魔法打败魔法”？

用最强的矛打最强的盾。

AIGC

雷科技 2023-06-28

AI 污染毁不掉互联网

一项英国和加拿大的研究发现，当人类越来越多地通过AI生成内容，它们会大量进入在线数据库，被用来训练未来的AI，如果一代又一代地延续下去，最终将导致「模型崩溃」。所以，在ChatGPT之前，互联网已经内容降级，…

ChatGPT

AppSo 2023-06-24

生成式AI成互联网最大污染源，识别虚假内容要“用魔法打败魔法”？

生成式AI成互联网最大污染源，识别虚假内容要“用魔法打败魔法”？ 2 月初，随着 ChatGPT 和微软 Bing AI 接连引爆互联网，ChatGPT 概念股应声而起，其中知乎因为大量问答被广

生成式AI ChatGPT 微软

雷科技 2023-06-28

近期资讯

英特尔喜报频传：股价大涨

全天候科技 2024-09-17

消息称苹果包下台积电 2nm 首批产能，用于 iPhone 17 Pro 系列

IT之家 2024-09-17

美联储举行货币政策会议，预计将公布最新利率决议

36氪 2024-09-18

“新债王”Gundlach：美联储周三料降息50基点

36氪 2024-09-18

抖音客服回应三只羊被立案调查：平台已介入，会联合市监部门共同调查

三言科技 2024-09-17

券商建议把握后市结构性机遇

36氪 2024-09-18

美国零售销售意外增长，但网购掩盖了其它商户喜忧参半的业绩

36氪 2024-09-18

A股持续调整，券商密集调研三大行业板块

36氪 2024-09-18

预期改善叠加估值优势，A股吸引力持续提升

36氪 2024-09-18

国际金价再创新高，若美联储降息落地或致短期回调

36氪 2024-09-18

警惕，互联网正在被污染！生成式AI，生成垃圾？网友：上梁不正下梁歪罢了

推荐体验

相关资讯

AI，正在疯狂污染中文互联网

AI正在疯狂污染中文互联网！

AIGC大肆污染互联网，防范垃圾内容要“用魔法打败魔法”？

AI 污染毁不掉互联网

生成式AI成互联网最大污染源，识别虚假内容要“用魔法打败魔法”？

近期资讯

英特尔喜报频传：股价大涨

消息称苹果包下台积电 2nm 首批产能，用于 iPhone 17 Pro 系列

美联储举行货币政策会议，预计将公布最新利率决议

“新债王”Gundlach：美联储周三料降息50基点

抖音客服回应三只羊被立案调查：平台已介入，会联合市监部门共同调查

券商建议把握后市结构性机遇

美国零售销售意外增长，但网购掩盖了其它商户喜忧参半的业绩

A股持续调整，券商密集调研三大行业板块

预期改善叠加估值优势，A股吸引力持续提升

国际金价再创新高，若美联储降息落地或致短期回调

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响