开发者火冒三丈炮轰GenAI：垃圾语料太多，模型正在变得越来越笨

作者：新智元发布时间：2024-10-08

生成式AI（GenAI），尤其是以OpenAI的ChatGPT为代表，人们发现，这些大模型在一年多后的性能表现远不及刚发布时那样令人惊艳了。

AI似乎正在变得越来越笨。

这种声音逐渐出现在各个社交网络的平台上，并有许多拥趸。

在OpenAI开发者论坛上，有用户发帖表示：自从去年最新版本的GPT发布后，模型的准确性就显著下降了。

同样的，一位ChatGPT的用户在今年6月写道，「经历了这么多的AI炒作之后，这些模型如今的表现让我非常失望。」

Steven Vaughan-Nichols是一位自由撰稿人和技术分析师，在多家科技媒体中担任高级特约编辑。他拥有自己的个人博客，在X上拥有数万名订阅者。

今年8月下旬，史蒂文在《Computerworld》的一篇言辞激烈的评论文章《I’ve got the genAI blues》中表示：

所有主要的公众可访问的AI模型，像ChatGPT和Claude这样的品牌旗舰产品——其性能都不如以前的版本。

文章地址：https://www.computerworld.com/article/3488589/ive-got-the-genai-blues.html

他在文章中写道，「这些由AI生成的结果常常令人恼火。它们有许多荒谬的错误，更糟糕的是，这些错误的出现总是反反复复，没完没了。」

「如果只是答案平庸但相对准确，我还可以想办法应对。但它生成的内容让我无能为力。」

以下是这篇评论文章的内容。

I’ve got the genAI blues

ChatGPT之类的工具远没有你想象的那么好，而且随着时间的推移，它们的表现越来越糟。

我也希望生成式AI真的有用，但事实并非如此。我一直在不断尝试使用各种AI——如ChatGPT、Meta AI以及Gemini等。

这些模型在你不太了解相关领域的情况时，看起来似乎是有用的，它们生成的回答也很合理。

但只要你仔细考察一番，就会发现这些答案是错误的。

如果你对内容的需求仅在高中水平，模型生成的答案还算过得去。但当你需要深入挖掘或研究某个主题时，那就另当别论了。

以我日常的工作内容为例，在Linux和开源软件等主题上，我比一般的大语言模型（LLM）了解得更深入。

在我使用生成式AI对这些主题进行研究时，AI能给出的回答乍一眼看上去可能不错，但你越深入的去讨论一些细节时，它能给出的信息就越贫乏。

这些由AI生成的结果常常令人恼火。它们有许多荒谬的错误，更糟糕的是，这些错误的出现总是反反复复，没完没了。

如果只是答案平庸但相对准确，我还可以想办法应对。但它生成的内容让我无能为力。

这并非仅是我一个人的看法。

《商业周刊》报道，许多GPT-4的用户发现它变得越来越「懒」和「愚蠢」。

其他人也对此表示认同。

正如最近在Reddit上的用户所说的那样，「现在ChatGPT 3和4的效果远不如我一年前订阅专业版时那么有效和有帮助。」

在我看来，即使是最好的生成式AI聊天机器人Perplexity也在走下坡路。

以前我喜欢Perplexity的一个原因是它会为其观点提供来源。在我把它看作是一个超级增强的搜索引擎时，这个功能很有用。

然而，最近它的表现也越来越不稳定，我再也无法指望它能够准确地给出它是在哪里找到、并重新整合出的这些信息。

为什么会这样？

虽然我并不是AI开发者，但我密切关注这个领域很久了。

以下是我看到的导致模型开始失效至少两个主要原因：

首先是用于创建主要大语言模型的内容质量问题。

许多模型的训练集中包含了来自诸如Twitter、Reddit以及4Chan等「优质」网站的数据。

正如谷歌在今年早些时候发布的AI概述所显示的那样，采用这些数据集对AI进行训练的结果可能会非常糟糕。

《麻省理工科技评论》同样指出，现在的AI会生成一些质量极差的答案。

如建议用户「往披萨上加胶水」或「每天至少吃一块小石头」，以及「前美国总统安德鲁·约翰逊在1947年至2012年间获得了大学学位，尽管他于1875年去世。」

这类回答都是些无伤大雅的蠢例子，但如果你需要一个正确答案，那就完全是另一回事了。

以一位律师为例，他的法律文件中包含了由AI虚构的案例信息，法官们发现这一事实后并不会被逗笑。

如果你只是想用生成式AI闲聊（这似乎是ChatGPT最流行的用途之一），那么准确性可能对你并不重要。

但对于我，以及所有希望将AI用于商业的人来说，正确答案才是最重要的。

随着生成式AI巨头继续寻找更多数据，这个问题只会变得更糟。

来自Epoch AI的一项研究发现，我们最早将在2026年耗尽高质量数据。

这就引出了第二个问题。

如今，生成式AI生成的内容正在取代专家级人类内容。

结果不仅仅是劣质数据排挤了优质数据，情况还要更为糟糕：

《自然（Nature）》的最近的一篇论文发现，「不加区分地从其他模型生成的数据中学习会导致‘模型崩溃’。这是一种退化过程，随着时间的推移，即使分布没有随时间变化，模型也会忘记真正的底层数据分布。」

我愿将其称为「垃圾进，垃圾出（Garbage In, Garbage Out）」。

但由于我看不到公司会停止使用生成式AI以更低的成本来生成文档，因此未来充斥在互联网中的内容质量只会继续下降。

不管你信不信，就质量而言，我们可能已经处于人工智能的顶峰。

这难道不是一个可怕的想法吗？

当然，我不是一个极端的AI反对者。

基于专用大语言模型的特定用途的生成式AI聊天机器人，在作为排查程序故障或发现潜在癌症的工具时，已经非常有用。

其他的一些用途中，如在线游戏中由AI驱动的非玩家角色，将提高游戏体验，而像ElliQ这样的AI朋友可以帮助很多孤独的人。

但作为大多数公司热衷的替代知识型员工的方式，还是算了吧。

除了CEO——他们倒是可以被AI聊天机器人取代。

我怀疑很多人不会注意到AI CEO与人类CEO的区别——除了它会为公司节省一大笔钱。

生成式AI的未来

这不应该是事情发展的方向。

通常来说，新的版本软件应该比它们所取代的版本更好。

但由于生成式AI需要通过大量数据进行训练，而随着人类世界的高质量内容日益枯竭、互联网越来越多地充斥着AI生成的劣质内容，模型未来的性能表现将会成为一个越来越严重的问题。

当然，我们也有可能会重新发现由人类完成的那些极其珍贵且不可替代的工作的价值。

但最好也别对此抱有太大的希望。

参考资料：

https://futurism.com/the-byte/ai-dumber

本文来自微信公众号“新智元”，作者：新智元，编辑：Lumina，36氪经授权发布。

近期资讯

造价师必知！“暂列金额”和“暂估价”的处理方法

暂列金额和暂估价作为工程项目两个相似的概念，指的都是暂未确定的费用，发包人与承包人往往会因为概念不清楚发生一些争议和纠纷。工程造价人员如果对此概念不明确、内容不清楚，将会出现不公正的问题。今天小编整理分析“暂列金额”“暂估价”的区别，要知道在工程结算时，投标中的“暂列金额”和“暂估价”怎么处理。工程预算中，暂列金额和暂估价的区别 1、概念不同 (1)暂列金额是指招标人在工程量清单中暂定并包括在合同价款中的一笔款项。用于施工合同签订时尚未确定或者不可预见的所需材料、设备、服务的采购，施工中可能发生的

造价通 4小时前

达恩留学 4小时前

2024年文件加密软件大盘点：9款让你爱不释手的加密神器

泄密，一直都是企业的痛点。加密，则是消除痛点的良药。今天，就让我们一起盘点2024年9款超级好用的文件加密软件，特别推荐安企神，带你走进文件加密的奇妙世界！ [图片] 1. 安企神软件：企业的超级守护者加密技术：安企神软件，这位企业的超级守护者，采用了先进的AES-256加密算法，仿佛给每一份文件穿上了一层坚不可摧的盔甲。无论是单文件、文件夹还是整个磁盘，它都能轻松应对，让你的数据在无形中受到全方位的保护。 [图片] 加密模式：透明加密模式是它的杀手锏。在用户毫无察觉的情况下，文件在创建、编辑和

安企神软件 4小时前

瑶族的起源——北斗有瑶光，良渚有瑶山，西南有瑶族

瑶族是中国最古老的民族之一，华南地区分布最广的少数民族。目前，瑶族总人口已经超过330万，分布在中国南方广西、湖南、广东、云南、贵州和江西六省（区）130多个县内，以广西境内最多，超过全国瑶族人口总数50%。瑶族，是一个非常独特而神奇的民族。但是，瑶族的起源一直没有定论，众说纷纭，莫衷一是。尤其瑶族名字“瑶”的来源，更是奇葩丛生，一头雾水。一、极富个性的民族 1、自尊之心瑶族是一个高度自尊自重自爱的族群。在中国众多少数民族中，自尊心表现得最为强烈，甚至没有之一。一方面，基于长期迁徙的

文脉云 4小时前

微信小程序怎么制作自己的小程序商铺

　　想拥有自己的微信小程序商铺却不知从何下手?别着急，本文将详细介绍微信小程序商铺的制作方法，还有网友真实案例分享哦!快来一起开启你的电商之旅吧。　　如今微信小程序商铺可真是太火啦!它有着诸多优势呢。对于商家来说，小程序商铺无需用户下载额外的 APP，直接在微信中就能轻松访问，大大降低了用户的使用门槛。而且，借助微信庞大的用户群体和社交网络，推广起来也更加容易。比如网友小琳，她原本只是在街边开了一家小饰品店，生意不温不火。后来做了微信小程序商铺，线上线下相结合，订单量一下子就涨了好多呢。　　首先呀，你得

广州凡科 4小时前

30万级净化车间标准装修

30万级净化车间标准修是一个综合性的规范，旨在创造一个洁净、稳定的生产环境，以满足对空气质量有较高要求的生产工艺需求。以下是该装修标准的主要方面：一、洁净度要求按照标准ISO 14644-1定义，30万级洁净车间指的是每立方米空气中≥0.5μm的悬浮粒子数量不超过352,000个。二、设计与布局洁净分区：根据生产工艺流程对空气洁净度的不同要求，将车间划分为若干区域，如清洁区、半清洁区和非清洁区。30万级区域通常适用于对环境要求相对宽松的加工或装配环节。气流组织：合理的气流组织是确保空气洁净度的关键

中净环球净化 4小时前

宽博科技医院窗口叫号屏厂家智能化预约挂号，提升患者就医便捷性

#医院窗口叫号屏厂家在智能化转型的现代社会中，医疗行业也不甘示弱，随着医院信息发布系统的升级，医疗行业也迎来了智能信息化时代。宽博作为专业研发医院窗口叫号屏的生产厂家，是这一领域的佼佼者，凭借创新的产品与卓越的服务，逐步成为医院信息传递的有力助手。医院窗口叫号屏不但能提升医疗服务效率，还能优化患者的就医体验。一、信息实时传递候诊信息实时更新：医院窗口叫号屏可以实时更新显示候诊信息，让患者能够随时了解自己的候诊状态，医生的就诊状态，减少等待时的焦虑不安感。医生排班与病床状态：医院窗口叫号屏实时显示

宽博商显条形屏-张张 4小时前

高中地理“37个大题答题模板”，就凭它，地理也能冲上85+！

地理是文综当中理科性最强的，也是文综里面最难的！即使是新高考选科，地理也是不容忽视的一块；高中地理按内容可以分为两类：自然地理和人文地理，其中人文地理相较于简单一些，自然地理是很多同学的痛点，无论是宇宙系统、地球自转，还是水体运转、生物循环……其实，高中地理并不是那么抽象的，今天为大家盘点了【高中地理37个大题答题模板】，帮助同学们系统的掌握知识点！收藏起来哈~~~

桃嘟嘟学姐dodo 4小时前

开发者火冒三丈炮轰GenAI：垃圾语料太多，模型正在变得越来越笨

I’ve got the genAI blues

生成式AI的未来

推荐体验

相关资讯

阿里云“疯狂星期四”，为什么开发者越来越care云的性价比？

每周AI大事件|苹果开发Apple GPT、OpenAI用合成数据训AI、GPT-4变得越来越笨

越来越聪明，越来越年轻！AI大模型鸿蒙4正式发布

AI发展越来越迅速，GPT-4 却变笨了？

越来越强的 AI 大模型，越来越便宜的 ChatGPT

近期资讯

造价师必知！“暂列金额”和“暂估价”的处理方法

云微客AI直播矩阵，让小白轻松上手的必备直播利器

2024IAA：口碑不输斯堪尼亚，荷兰达夫卡车的顶级公路旗舰，带你好好看看XG+

华威大学本科含金量解读：综合发展前景究竟如何？

2024年文件加密软件大盘点：9款让你爱不释手的加密神器

瑶族的起源——北斗有瑶光，良渚有瑶山，西南有瑶族

微信小程序怎么制作自己的小程序商铺

30万级净化车间标准装修

宽博科技医院窗口叫号屏厂家智能化预约挂号，提升患者就医便捷性

高中地理“37个大题答题模板”，就凭它，地理也能冲上85+！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响