当前位置:首页|资讯

DeepSeek-V3巧取捷径?

作者:王智远发布时间:2024-12-30

昨天写完DeepSeek-V3的文章,看到一段吐槽:

OpenAI 是一家以创造先进人工智能技术为目标的公司。DeepSeek-V3,是在一个开源系统上进行性能和成本效益优化的。 看起来有点偷懒。 

我不确定这段评论是不是AI写的,但大概明白那位朋友的意思, 他认为OpenAI更注重创造,而DeepSeek-V3只是在别人做好的基础上,做了系统优化。 

那么,如果作为后来者,把AI的一个个模型都当作系统来优化,并且做到最好,是不是更有利于深入到实际应用场景中呢?我个人认为,是的。

01

为什么这么说呢?先介绍一个词:数据蒸馏技术(Dataset Distillation)。它的本意是一种机器学习方法,核心是把大量数据中的精华信息,浓缩到一个更小的数据集中,然后进行训练。

具体来说,通过一系列算法和策略,对原始数据进行深度处理。这包括去除数据中的噪声、降低数据的维度,以及提取出最关键的信息。 

经过这些步骤,最终能得到一个既精炼又实用的数据集,让AI学习后更加精准; 这样 做的好处是,既能提升模型的性能,又能减少训练过程中所需的数据量和计算资源。 

如果还是不太明白,我来举个例子。 

想象一下,你有一本厚厚的《穷查理宝典》,里面包含了大量的知识点。但看到一半时,你发现找到重要的信息并不容易。这时,该怎么办呢? 

最好的选择之一,按照索引目录,或者制作一个精简版的手册,只保留关键内容。 

这样,你既能快速获取核心知识,又不用每次都翻那本厚重的书。数据蒸馏技术就像这个过程,它从海量数据中提取出最重要的信息,生成一个小巧但高效的数据集。 

比如,在训练图像识别模型时,原本可能需要成千上万张图片。但通过数据蒸馏,可能只需要几百张精选图片,就能达到相似的识别效果。 

那么,使用数据蒸馏技术,一定是坏事吗?不一定。 

为什么呢? 

我认为有三个原因。 第一,它能提升效率。 数据蒸馏可以让模型变得更轻量化,运行速度更快。这对硬件性能有限的设备特别重要,比如手机、物联网设备。 

模型通过压缩知识量,保留核心信息,再配合注意力训练,这样既能节省时间和资源,又能让模型高效学习。 

第二,它能保护隐私。 数据蒸馏本身像一种抽象的表达,它不需要存储或处理完整的原始数据,因此隐私泄露的风险自然更低。 

比如:在医疗场景中,使用经过蒸馏的模型,可以让算法学到诊断能力,但又不用直接接触患者的隐私数据。 

第三,它能快速迁移知识。 对于跨领域的应用,蒸馏可以帮助新模型迅速学习已有模型的能力,不用从零开始训练,这种“以老带新”的方式,可以大幅缩短开发周期,还能避免重复劳动。 

写到这儿,可能有人会问:蒸馏后AI怎么学习呢?   

简单来说,大概分两步。 :‍ 

第一步,可以想象有一个已经训练好的大模型,就像一位老师。 它掌握了大量知识。蒸馏的过程,就是让这位老师把最重要的知识提炼出来,教给一个小模型,也就是学生。   

比如,大模型会告诉小模型:“这张图片是猫,关键特征是耳朵和胡须。”小模型不需要记住所有细节,只要抓住这些核心信息就够了。   

第二步,就是让学生自己练习。 小模型拿到这些提炼后的知识后,会用自己的方式去学习和理解。它通过反复练习,逐渐掌握这些核心信息。最终,它也能像大模型一样完成任务,比如识别图片中的猫。   

这就像你学数学时,老师不会让你背下所有题目,而是教你解题的思路和关键公式。你记住这些重点后,就能自己解决类似的问题。 

蒸馏后的AI也是这样,它学的是“解题方法”,而不是“全部题目”;这样一来,小模型既能高效学习,又不需要像大模型那样消耗大量资源。 

明白这一点,你也就理解了数据蒸馏技术(Dataset Distillation)最本质作用。

02

其实,deepSeek-V3本质也用的数据蒸馏技术,只不过,它的技术架构层面自己没有用,而是从 DeepSeek-R1 模型中提炼推理能力。

看到这,你也许又懵了,DeepSeek-R1 模型是什么? 

DeepSeek-R1是一个更早、更复杂的模型,它具备强大的推理和反思能力。它的设计初衷是为了解决更高级的问题,比如:需要深度思考和验证的任务。 

DeepSeek-V3 则是在它的基础上,通过数据蒸馏技术,提取了 R1 的核心推理模式,而不是直接复制它的所有功能。 

这样做的好处是,DeepSeek-V3 既能保留 R1 的精华,又变得更轻量化,更适合实际应用场景。实在无法理解,你可以思考成: R1 是“老师”,V3 是“学生”,学生从老师那里学到了最重要的解题思路,而不是死记硬背所有答案。 

那么,我们怎么知道 DeepSeek-R1 一定也用了数据蒸馏技术呢?其实,要判断一个模型有没有用数据蒸馏技术,只需要搞清楚三个问题就够了。 

第一个问题是:R1 是否生成了比简单的硬标签更丰富的输出? 比如,概率分布或者中间推理链。这些输出是否被用来指导后续模型的训练?   

更通俗地说,这个问题可以理解为:R1 是不是不仅仅给出了答案,还提供了更多的信息。比如,它是怎么得出这个答案的,或者它对这个答案有多大的把握。这些额外的信息,会被用来帮助其他模型更好地学习。   

针对这个问题,我查了一下 DeepSeek-R1 的技术和 API 文档,结论是:是的。理由有三点:   

第一,概率分布 

DeepSeek-R1 在推理过程中,不仅会输出最终的硬标签(比如分类结果或具体答案),还会提供概率分布信息。 

这种概率分布反映了模型对不同可能性的置信度,能够更细致地描述模型的决策过程。 

在后续模型训练中,这些概率分布可以作为软标签,用于知识蒸馏;这样,学生模型(比如 DeepSeek-V3)就能更好地学习教师模型(R1)的推理模式,从而提升性能和泛化能力。   

第二,中间推理链(思维链) 

DeepSeek-R1 采用了思维链技术,在解决复杂问题时,会生成一系列中间推理步骤。这些步骤展示了模型对问题的逐步理解和解决过程,提供了更丰富的上下文信息。 

在后训练阶段,这些中间推理链被提取出来,用于指导后续模型的训练。 

通过知识蒸馏,R1 的思维链能力被迁移到其他模型(比如 DeepSeek-V3)中,显著提升了这些模型的推理能力和任务表现。这一点,可以在 DeepSeek-V3 的报告中看到。   

第三,指导后续模型训练 ;相比于传统的硬标签,这些信号能够更全面地传递教师模型的知识和推理能力。 

比如,在知识蒸馏过程中,学生模型不仅学习最终的输出结果,还学习教师模型的决策过程和中间推理步骤。这样,学生模型就能获得更强的泛化能力和更高的准确性。   

所以,DeepSeek-R1 通过生成概率分布和中间推理链,提供了比硬标签更丰富的输出,这些输出被有效地用于指导后续模型的训练。

03

第二个问题是: R1 是否提取了内部特征(比如中间层的表征),并用这些特征来优化 V3 的推理能力?

说白了,R1在运行过程中,是否记录了一些中间步骤的信息,比如它是如何一步步思考的。然后,这些信息是否又被用在帮助 V3 更好地学习和推理。 

经过我的查阅,R1确实在内部特征(如中间层表征)上进行了提取,并用于优化V3的推理能力。 

具体来说,DeepSeek-V3在其后训练阶段引入了一种新的方法,从长链思考(CoT)模型,特别是DeepSeek R1系列模型中提取推理能力,并将这些能力整合到标准的LLM中,尤其是DeepSeek-V3。 

看到这,有些朋友会有疑问了: 中间层表征什么意思? 

在深度学习模型中,中间层表征指模型在处理输入数据时,每一层(尤其是隐藏层)输出的特征表示,这些表征捕捉了输入数据在不同抽象层次上的信息。 

举个通俗的例子: 

想象一下,你在看一幅画。第一眼,你可能只注意到画中的颜色和形状,这是最基础的信息。 

接着,你开始注意到画中的物体,比如树、房子或者人,这是更深一层的理解,最后,你可能还会思考这幅画的主题或情感,比如它表达的是快乐还是忧伤。 

深度学习模型的工作方式也类似。 

输入数据(比如一张图片)经过模型的每一层时,会被逐步分析和抽象。第一层可能只提取简单的特征,比如边缘或颜色;中间层会提取更复杂的特征,比如形状或纹理。最后一层则可能识别出具体的物体或场景。 

这些中间层表征,就是模型在每一层对输入数据的理解和提取的信息,它帮助模型逐步从简单到复杂地理解数据,最终完成任务。 

而DeepSeek-R1模型呢?通过分析模型的中间层输出,提取关键的特征表示;具体方法有两点: 

其一,特征可视化‍ 

它通过可视化工具(比如 Grad-CAM、t-SNE)分析中间层特征。这些工具可以更直观地看到模型在处理数据时,每一层提取了哪些信息。 

其二,特征重要性评估 

使用注意力机制或特征重要性评分(比如 SHAP 值)来确定哪些特征对推理任务最关键,简单来说,找出哪些信息对模型的决策影响最大。 

此外,有一个重要步骤:特征压缩。 

即,利用降维技术(比如 PCA 或自动编码器),提取最具代表性的特征,这样可以减少数据的复杂性,同时保留最关键的信息,让模型更高效地学习和推理。 

如果无法理解,可以通俗的把整个过程想象成: 

你在整理一本厚厚的书,首先,通过目录快速找到重要的章节,了解书的主要内容,这就叫特征可视化;然后,你会用荧光笔标记出最关键的部分,比如核心观点或重要数据,这叫特征重要性评估。 

最后,你会把书中的精华内容总结成几页笔记,方便以后快速查阅。这是特征压缩。 

DeepSeek-R1工作方式也类似。它分析中间层输出,找到最关键的信息,再把这些信息压缩成更精炼的形式,帮助模型更高效地学习和推理。 

因此,我的结论是:DeepSeek-R1 确实提取了内部特征,并通过特征可视化、特征重要性评估和特征压缩等方法,将关键信息用于优化DeepSeek-V3的推理能力。

04

第三个问题:R1是不是专门为其他模型提供知识转移的服务,而不只是自己用?换句话说,R1是不是帮助别的模型学习新知识?

答案是肯定的。 

DeepSeek-V3用了一个很聪明的方法,把DeepSeek R1系列模型的推理能力,转移到标准的LLM里面。这样不仅让DeepSeek-V3变得更聪明,还能控制输出的风格和长度。 

可以肯定地说,R1系列模型确实是为其他模型提供知识转移的服务,这是官方都承认的。综上,鉴于这三个问题,可以说: deepSeek-V3的确用了数据蒸馏技术。 

其实,国内很多推理模式,都是基于蒸馏 O1 Preview 的数据。这种方式把别人走过的弯路,变成了自己的捷径,让新模型站在“巨人”的肩膀上。 

我这句话不是胡说。这篇论文的名字叫:《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》发表在arXiv.org平台上 「1」 。 

其中公开指出了,从O1的API中进行简单蒸馏,再加上监督微调,可以在复杂的数学推理任务中实现卓越的性能。 

在美国邀请数学考试(AIME)中,仅对数万个样本O1提取的长思维链进行微调的基础模型,在技术复杂性最小的情况下优于O1预览。 

所以,这也是为什么大多数AI产品,做高中题效果提升好,做博士级别的题目效果一般的原因。 

因为,高中级别的题目有明确的解题思路和标准答案,适合通过蒸馏、微调来提升性能;而博士级别的题目要更深层次的创新和复杂推理,单纯依赖蒸馏技术难以覆盖这些高难度的需求。 

但是,如果各种小模型,先用蒸馏技术过滤一遍高中题,再推向市场,这何尝不是一种进步呢? 

就说这么多,不要嘲笑别人巧取捷径,要多思考,它用了特殊方法,节省下多少算力;毕竟,DeepSeek-V3训练成本只有557.6万美元,这只是训练Meta的Llama 3.1所需估计的5亿美元的1.1%。

注释: 

[1].O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?地址:https://arxiv.org/abs/2411.16489

本文来自微信公众号 “王智远”(ID:Z201440),作者:王智远,36氪经授权发布。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1