基于 ChatGPT 的输出训练开源 LLM，糟透了！

作者：CSDN发布时间：2023-04-27

【CSDN 编者按】曾以为在 ChatGPT 上训练模型是不错的捷径，可如今所有的大模型都依靠GPT来训练，所有这些内容都来自一个模型，越来越难以区分 LLM 生成的和真正有价值的内容。或许更多基于开源数据集的 LLM 才是我们所需要的。

作者 | Martin Laprise

译者｜陈静琳责编 | 屠敏

出品 | CSDN（ID：CSDNnews）

声明：本文由 CSDN 翻译，未经允许，禁止转载。

随着 ChatGPT 模型的发布和广泛应用，AI 市场中都在竞相创建开源替代方案来与 GPT-3.5/GPT-4 竞争，大多团队的一个常见捷径是在 ChatGPT 上微调他们的模型。我曾认为这样是一个不错的方式，而且完全公平。这样可以借助 OpenAI 有效地将整个网络提炼为他们的模型，包括使用所有公开访问的信息，除了服务条款的细小细节外，表面上看不出有什么重大的道德问题。

不过，直到现在，我意识到，即使忽略掉道德层面的问题，这样的做法本质上来说是错误的。

技术维度看基于 ChatGPT 输出训练开源的 LLM

首先，从纯技术的角度来看，正如 Twitter 网友@yoavgo 近日发布的《Reinforcement Learning for Language Models》文章中解释的那样，没有 RLHF 组件就无法正确对齐 LLM。

监督学习只允许正反馈(我们向模型展示了一系列问题及其正确答案)，而 RL 允许负反馈，监督学习模型只允许生成一个答案，所以对于这种类型的交互，我们必须使用 RL 训练。监督训练可能会教模型说谎，最核心的问题是我们希望鼓励模型根据其内部知识进行回答。训练的目标是让模型概括并学习回答任何问题，而不仅仅是指令训练数据中的问题，也希望模型具有普遍性。但是，如果成功地训练模型在这些情况下进行归纳，那么实际上是在教模型编造东西，它积极鼓励模型“说谎”，这是错误的。

所以从某种意义上说，说 OpenAI 的 LLM 只提取网络信息并不是完全正确的，因为它们在训练期间提供了大量的 RLHF 反馈，而这正是问题所在。

可怕的是，所有这些内容都来自一个模型

其次，再从一个美学、政治的角度来看待这一问题。最近，Midjourney 和 Stable Diffusion 工具生成的图像在互联网上呈现爆炸式增长，让我印象非常深刻，这些图像被用于博客文章、书籍插图、YouTube 缩略图、广告等地方。这改变了我们在过去 20 年中一直在到处使用的劣质 Stock 照片的，ChatGPT 的到来也是同样如此也，唯一的区别是它更难被注意到。

与生成的图像不同，生成的文本很难被检测到。倘若对互联网上的信息进行采样，我猜测 ChatGPT 创建的内容增长速度会非常快，毕竟现在人们正在大范围地使用它：广告、信件、编辑助手、翻译、总结、电子邮件编辑等。微软甚至做了 Office Co-Pilot 的演示，展示了一位母亲使用 Office CoPilot 给女儿写信，所以可以想象在不久的将来，互联网将被 LLM 输出或至少被 LLM 大量启发或编辑的内容所淹没。

语言和思想是紧密相连的，

思维过程交给 AI 的结果可能是发展停滞

ChatGPT 是一种商业产品，OpenAI 完全有权随心所欲地调整模型，他们需要确保事情不会失控，但如果它是大模型领域唯一的模型，那会有很大的问题出现

在人类的发展中，语言不是简单的交流方式，主要用于传播我们大脑中建立的思想。语言实际上是思维过程的一部分，语言和思想并不完全相同，但它们紧密地交织在一起。考虑到这一点，人们将一部分思维的过程交给 AI 的长期后果是令人不安的。

进一步说，现在想象一下将这个过程委托给一个由一小群策划人推出高度一致的集中模型，后果是不是更加可怕。希望这不会发生，解决办法就是建立更多的模型，越独立的团队在各种架构、数据集和对齐规则上构建和训练模型，在保持语言和思想多样性方面做得越好。

显然，在 ChatGPT 输出上训练的开源模型无法实现这一目标。

更多基于开源数据集的 LLM 才是我们所需要的

构建那些真正的替代品（如 Open Assistant、StableLM 等）时间是非常紧迫的。OpenAI 模型非常受欢迎，它们输出的内容已经逐渐渗透整个互联网了。很快，像 CommonCrawl 和 Google C4 这样的公共数据集也将包含它生成的内容，并且将越来越难以区分 LLM 生成的和真正有价值的内容。

史蒂夫·乔布斯 (Steve Jobs) 有句名言，计算机就像大脑的自行车。如果执行得好，LLM 完全可以做相同的事情，而我们只需要确保所有自行车都没有被编程将我们所有人带到同一个地方。

在一个完美的世界中，像 OpenAI 和谷歌这样的大公司会给我们提供我们能与之对齐，但可供独立调整的模型，但目前这是难以达到的。因此，最好的选择是让开源模型在开源数据集上进行微调和对齐，可以在必要时重新训练或调整这些数据集。

▶互联网惊现 AI 鬼城：人类不得入内；阿里云史上最大规模降价，最高降幅达 50%；可致微信闪退的二维码Bug已找到|极客头条

▶蚂蚁链开源跨链技术加速大规模创新应用“涌现”

基于 ChatGPT 的输出训练开源 LLM，糟透了！

推荐体验

相关资讯

酷毙了or糟透了，品牌到底要不要做AI广告？

LLM 应用开发技巧 (三)：探究 LLM API 的输入和输出

基于TypedJs实现ChatGPT的流式输出的打印机效果

基于ChatGPT的LLM Farm平台的垂直场景介绍

基于ChatGPT模型再训练的方式

近期资讯

真MAX级，真够顶！九号公司2025新品首秀蓄势待发，预约通道现已开启

高校大模型产业发展与技术交流活动在成都高新区举行

距今百万年“郧县人”头骨化石科学相貌复原首次揭晓

AI硬件方向爆发！阶段主线会是它吗？——道达投资手记

惠州市低空经济产业联盟揭牌！千人齐聚惠州电子信息产业峰会

预计小米SU7上市一年订单将超33万交付有望超20万辆

上海米光科技申请高光效LED灯模组照明系统专利，显著降低能耗

2024地方新质生产力发展报告：未来产业大爆发，如何超越“内卷”思维？丨2024年终特刊

从技术创新到品质飞跃，AQUA爱克泳池设备不断升级赢得认可

家居新宠，海尔BCD-465WGHTDE9S9：465升十字冰箱，国补550元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响