ChatGPT变笨新解释：世界被AI改变，与训练时不同了

作者：量子位发布时间：2024-01-02

ChatGPT

对于ChatGPT变笨原因，学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出：

在训练数据截止之前的任务上，大模型表现明显更好。

论文重点研究了“任务污染”问题，也就是大模型在训练时期就见识过很多任务示例，给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出，大模型训练后参数冻结，人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化，就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答，其实是在训练时见过大多数常见任务。

随时间推移，人们开始提出更多新问题，AI表现就不行了。

比如对于代码问题，编程语言还在持续发展变化，迟早有一天效率会低到不可接受。

这是所有不具备持续学习能力模型的命运。

任务污染有多严重？

研究团队一共评估了12种模型，从ChatGPT之前的GPT-3系列、OPT、Bloom，到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题，也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难，闭源模型根本不会公布训练数据，大多数开源模型也只是生命了来源，而不发布数据本身。

如果研究者重新爬取互联网数据，也有可能与模型训练时相比发生了变化。

对此，团队采用4种方法来测量任务污染程度：

检查训练数据：直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上，存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

提取任务示例：通过调整提示词，让模型自己把训练数据中的任务示例背出来

从GPT-3 davinci-001版本到GPT-3.5-Turbo，这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例，绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据，但不代表问题不存在。

成员推断（只适用于生成任务）：检查模型生成的答案是否与原始数据完全相同

按时间顺序分析：对于已知训练数据收集时间的模型，测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高，但召回率较低。如果在任务的训练数据中找到数据，则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小，使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低，容易受干扰因素影响。

特别是对于GPT-3系列，目前人们假设其能力提高来自于指令微调，但研究团队认为事实并非如此。

虽然在2021年之前的数据集上，davinci-002比davinci-001的性能有所提高，但在2021年之后的数据集上性能却相应下降，

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为：

由于任务污染，闭源模型可能会在零样本或少样本评估中表现的比实际好，特别是经过RLHF微调的模型。污染的程度仍不清楚，因此我们建议谨慎行事。
在实验中，对于没有任务污染可能性的分类任务，大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
随着时间推移，观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加，这可能是由于任务污染造成的。
即使对于开源模型，检查训练数据的任务污染也很困难。
鼓励公开发布训练数据，以便检查任务污染问题。

有人总结到：

用现有数据训练AI
人们过多使用AI，以至于改变了现实世界
AI无法适应改变后的世界，变得低效

这是一个循环。

论文

https://arxiv.org/abs/2312.16337

参考链接

[1]https://twitter.com/ChombaBupe/status/1741531065032798360

本文来自微信公众号“量子位”（ID:QbitAI），作者：梦晨，36氪经授权发布。

近期资讯

AMD新一代GPU蓄势待发竞争力飙升压力给到英伟达

【CNMO科技】在接下来的几个月里，显卡市场的竞争格局将发生剧变。这款GPU不仅对AMD来说至关重要，对整个显卡市场也具有深远影响。在Steam的硬件统计中，英伟达的RTX3060等显卡常年占据领先地位，这反映出大多数用户并不需要顶级显卡，而是追求一款能够流畅运行最新游戏的日常显卡。

手机中国 2024-12-26

智能化农业管理升级萤石网络助力农业“四情”监测

在现代农业的创新浪潮中，如何有效提升土地价值成为行业发展的关键。随着智慧农业技术的不断进步，农业管理逐步向精细化、智能化发展。萤石云与山东旭瑞智能科技有限公司联合推出了一套涵盖“四情”监测的智慧农业方案，不仅优化了农田管理，还推动了农业增值的实现。

砍柴网 2024-12-26

汉威科技获得外观设计专利授权：“激光甲烷遥测巡检仪”

证券之星消息，根据天眼查APP数据显示汉威科技（300007）新获得一项外观设计专利授权，专利名为“激光甲烷遥测巡检仪”，专利申请号为CN202430243676.8，授权日为2024年12月27日。2.本外观设计产品的用途：用于甲烷气体浓度的检测。

证券之星 2024-12-27

亿道信息：AI眼镜产品仍处于客户导入、开模及深入优化阶段

亿道信息在互动平台表示，公司推出了AI眼镜全链路解决方案—SW3010，在拾音、拍照、图像处理、视频优化、国内外AI模型导入、与AIPC、家庭智算中心及AIoT链接等方面进行了深度优化。系统支持多模态交互，包括语音、手势、按键等多种交互方式，适应不同使用场景。目前公司的AI眼镜产品仍处于客户导入、开模及深入优化阶段，暂未达到量产阶段。

金融界 2024-12-27

兆龙互连：400G、800G高速率产品需求量将会呈现快速增长的趋势

钛媒体App12月26日消息，兆龙互连接受机构调研时表示，就高速产品的类别而言，公司涵盖了从100G、200G到400G、800G的产品线。随着技术的推进，400G、800G高速率产品需求量将会呈现快速增长的趋势。相比以往，公司高速业务今年整体增长较快，其中第四季度尤为明显。

钛媒体快报 2024-12-26

江西赣州瑞金机场试飞工作取得圆满成功

12月26日傍晚，新建的江西赣州瑞金机场顺利完成验证试飞，各项验证指标正常，符合行业标准，为机场正式通航运营奠定了基础。验证试飞是机场通航前的重要验证环节，试飞过程历经一个多小时，主要对机场飞行程序、运行标准、通信导航、灯光系统、飞行区道面、滑行标志等内容进行全面验证。

央广网 2024-12-26

电脑无法开机的常见原因及解决方法详解，助你轻松排查故障

电脑开不了机，这种情况对很多人来说都不是陌生的。无论是工作、学习还是娱乐，电脑的突然“罢工”总是让人感到无比烦恼。那么，电脑开不了机到底是怎么回事呢？如果内存条松动了，或者本身就有故障，电脑就会开不了机。

新报观察 2024-12-27

卷造车，也卷造“人”！广汽第三代人形机器人来了，后年量产

12月26日，在2024年中国机器人网年会上，广汽集团推出了自主研发的第三代具身智能人形机器人——GoMate。此次发布的GoMate，是一款全尺寸的轮足人形机器人，全身拥有38个自由度。

南方都市报 2024-12-26

华为 BRE-AL80 手机现身电信终端产品库，零售价 1799 元起

IT之家12月26日消息，型号为“BRE-AL80”的华为新机现身中国电信终端产品库“华为先锋计划”板块，相关页面显示产品零售价格1799元起。该款手机宣传名称处于保密状态，其共有雪域白、曜金黑、湖光青、云杉黛四款配色，其中云杉黛配色为8GB+512GB版本独占配色。

IT之家 2024-12-27

德龙激光：公司产品有用于切割AR/VR眼镜玻璃材料的设备

德龙激光在互动平台表示，公司产品有用于切割AR/VR眼镜玻璃材料的设备，暂无AI眼镜应用。

每日经济新闻 2024-12-26

ChatGPT变笨新解释：世界被AI改变，与训练时不同了

任务污染有多严重？

论文

参考链接

推荐体验

相关资讯

这是 GPT-4 变笨的新解释

仿人脑超算“深南”即将面世，突破摩尔定律；ChatGPT 变笨有了新解释

ChatGPT最近变笨了？

Chatgpt 最近好像变笨了。

仿人脑超算“深南”即将面世，突破摩尔定律；ChatGPT 变笨有了新解释丨 RTE 开发者日报 Vol.117

近期资讯

AMD新一代GPU蓄势待发竞争力飙升压力给到英伟达

智能化农业管理升级萤石网络助力农业“四情”监测

汉威科技获得外观设计专利授权：“激光甲烷遥测巡检仪”

亿道信息：AI眼镜产品仍处于客户导入、开模及深入优化阶段

兆龙互连：400G、800G高速率产品需求量将会呈现快速增长的趋势

江西赣州瑞金机场试飞工作取得圆满成功

电脑无法开机的常见原因及解决方法详解，助你轻松排查故障

卷造车，也卷造“人”！广汽第三代人形机器人来了，后年量产

华为 BRE-AL80 手机现身电信终端产品库，零售价 1799 元起

德龙激光：公司产品有用于切割AR/VR眼镜玻璃材料的设备

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响