揭秘DeepSeek-V3“物美价廉”的背后：蒸馏技术存在天花板，依赖合成数据训练有风险

作者：每日经济新闻发布时间：2024-12-31

每经记者郑雨航每经实习记者岳楚鹏每经编辑兰素英

最近大火的深度求索DeepSeek-V3模型仅用557万美元的训练费用，就达到了顶尖模型的效果，而且产品价格低廉，因此被网友们戏称为大模型界的“拼多多”。国外独立评测机构Artificial Analysis在测试后声称，DeepSeek-V3超越了迄今为止所有开源模型。

DeepSeek-V3的训练仅使用2048个H800 GPU，总训练GPU卡时为2788千小时（其中预训练为2664千小时）。与之相对比，根据黄仁勋在GTC2024上的演讲内容，GPT-4 MoE使用8000个H100训练了90天，合计约为17280千卡时，相当于DeepSeek-V3的6.2倍。

DeepSeek-V3训练提效的原因主要包括：低精度计算、小参数量和高质量数据等。据DeepSeek-V3的技术文档，该模型使用数据蒸馏技术（Distillation）生成的高质量数据提升了训练效率。数据蒸馏指的是通过一系列算法和策略，将原始的、复杂的数据进行去噪、降维、提炼等操作，从而得到更为精炼、有用的数据。

不过，蒸馏技术并不是十全十美。有学者认为，蒸馏技术虽然可以提高模型训练效率，但借此开发的模型无法超越基础模型的能力，在多模态数据方面效果不好，而且会导致研发人员为了快速取得成果而放弃对基础模型的探索。

针对AI训练可能使用合成数据（大模型生成数据）这一话题，伦敦大学学院（UCL）名誉教授和计算机科学家彼得·本特利对《每日经济新闻》记者表达了担忧，称“如果继续在其他AI的输出上训练AI，结果可能是模型崩溃。确保高质量AI的唯一方法是，为其提供人类的高质量内容。”

图片来源：AI生成

蒸馏技术并非新技术，诺奖得主辛顿2015年就已提出

根据DeepSeek-V3的技术文档，针对推理相关数据集（如数学、代码竞赛、逻辑谜题等），DeepSeek-V3利用之前训练好的 DeepSeek-R1模型生成数据后，再使用结合了监督微调（SFT）和强化学习（RL）训练的专家模型来蒸馏生成最终的数据。针对非推理数据（如创意写作、角色扮演、简单问答等），使用DeepSeek-V2.5生成回复，并由人类验证数据的准确性和正确性。这些高质量数据帮助提升了V3的训练效率，并提高了模型适应能力。

数据蒸馏是什么？每经记者查询发现，蒸馏技术并不是新出现的事物，早在2015年，诺奖得主杰弗里·辛顿（Geoffrey Hinton）就提出了蒸馏（Distillation）这一思想。

图片来源：arxiv

南洋理工大学计算机研究人员王汉卿向每经记者表示，在谷歌提出划时代的Transformer模型之前，大家都是在优化小模型，这里加点东西，那里加点东西，模型的变化都不大，此时，蒸馏就是主要的优化手段。

数据蒸馏的目的是将复杂模型的知识提炼到简单模型。这一想法是通过已有的高质量模型来合成少量高质量数据，作为新模型的训练数据，从而达到接近于在原始数据上训练的效果。

以前的大模型训练相当于使用题海战术，在大量的数据中训练，而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师，筛选出有效题目，再让新的大模型训练。因此前一个模型在业界常被称为“教师模型”，后一个模型常被称为“学生模型”。

除此之外，DeepSeek-V3还利用蒸馏技术进行了知识蒸馏。

图片来源：DeepSeek-V3技术文档

王汉卿对每经记者解释道，知识蒸馏简单来讲，就是你有一个训练好的大模型M和一个准备训练的小模型m，假设输入是x，你需要让m(x)尽可能接近M(x)这个结果，就像是已经提前知道了一道题的答案，只需要根据答案去解题就行了，而不需要做繁琐的试错流程。

有业内人士对每经记者补充道，这就是一个取长补短的过程，通过学习优秀大模型好的部分来提升新模型的能力。

DeepSeek-V3的技术报告也明确表示，他们提出了一种创新方法，将推理能力从长链思维（Chain-of-Thought，CoT）模型（DeepSeek R1）中提取出来，并转移到标准的大型语言模型（DeepSeek-V3）。这一流程巧妙地将R1的验证和反思模式融合到DeepSeek-V3中，显著提高了其推理性能。同时，还保持对DeepSeek-V3输出风格和长度的控制。

蒸馏技术的天花板效应：“学生模型”无法真正超越“教师模型”

如果蒸馏技术这么好用，是否意味着大模型的训练要转向了？

伦敦大学学院（UCL）名誉教授和计算机科学家彼得·本特利在接受每经记者采访时表示：“这可能会对小机构的（研究）进展产生重大影响，这些机构不像OpenAI或谷歌那样拥有巨额预算。”

但这并不意味着，蒸馏技术就是一个十全十美的事物。王汉卿向每经记者表示，“我认识的（一线研究人员）基本没人搞（蒸馏）了。”目前优化大模型的方法是量化，比如降精度或是降缓存。DeepSeek-V3的技术报告也提到了使用FP8混合精度训练框架降低进度和通过压缩键值来降低缓存的方法。

据他解释，蒸馏技术存在一个巨大缺陷，就是被训练的模型（即“学生模型”）没法真正超越“教师模型”。有研究表明，通过蒸馏训练的模型总是受到其“教师模型”能力的限制，这会产生一种隐性天花板效应，无论蒸馏过程多么复杂，都无法真正超越原始模型的能力。当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时，这种限制就愈发成为问题。

有业内人士也向每经记者表示，你永远无法从一本书的厚度里学到10本书的厚度。

上海交通大学副教授刘鹏飞在一篇学术报告中提到：“蒸馏技术为在数学推理任务中取得显著性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处，但它掩盖了一系列深刻的挑战。”

表面上，模型可以通过相对简单的方法快速实现令人印象深刻的性能改进，但它永远无法超越原始模型的能力。更深层次看，它可能改变研究文化，导致研究者更倾向于捷径而非根本性解决方案，以及侵蚀问题解决的基本技能。最终，过度依赖蒸馏可能会扼杀AI领域中新颖的、具有变革性的创意。AI模型的真正突破不仅在于它能够解决复杂问题，而在于背后所拓展的复杂机制。

科学家：依赖合成数据训练存在风险

尽管DeepSeek-V3在基准测试中表现良好，但每经记者在使用过程中发现，DeepSeek-V3竟然声称自己是ChatGPT。一时间，“DeepSeek-V3是否在使用ChatGPT输出内容进行训练”的质疑声四起。

图片来源：每经记者试用DeepSeek-V3截图

每经记者采访到接近幻方人士，询问“DeepSeek-V3大模型是否有使用ChatGPT输出内容训练？如果不是，该模型的内容是如何进行训练的？”上述相关人士对此回复：“网上有很多写的很好的答案，去搜下就知道了。”

在每经记者的追问下，该人士指出，“不是两句话能说清楚的……你问的问题太复杂，不是业内做研究的人很难短时间理解。”

南洋理工大学研究人员王汉卿则向每经记者解释称，有三种可能性，一是数据来源里包含ChatGPT（的输出内容），二是使用了GPT模型做蒸馏，三是在强化学习流程中出现了错误。

本特利在采访中提到，“对DeepSeek-V3进行实验的研究人员认为，这种新模型可能根据OpenAI等公司的模型输出进行了训练。这可能是使用所谓的‘无版权’数据的一种简单方法，但这不是一个好主意。互联网上越来越多地充斥着‘AI垃圾’——大量AI生成的文本和图像（以及很快的视频）质量很差。研究表明，如果继续在其他AI的输出上训练AI，结果可能是模型崩溃——AI会与现实失去联系，并继续输出质量差、相似的内容。”

他对每经记者强调，“确保高质量AI的唯一方法是，为其提供人类的高质量内容，例如人类编写的真实文本、人类绘制或拍摄的真实图像、人类录制或创作的真实音频。如果想让AI理解我们的世界，数据需要来自真实的物理世界。否则，AI就会开始胡思乱想。”

免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。