半监督学习的低密度分离理论

作者：计算学徒发布时间：2024-09-12

在做机器学习时，通常可以收集到大量数据，但并不是所有的数据都有标签。如果机器学习模型同时针对有标签和无标签的数据进行学习，就是半监督学习（Semi-supervised learning)。

如何有效利用无标签的数据进行学习有多种不同的理论，其中一种理论称为低密度分离（Low density separation)。

低密度分离理论的核心逻辑是“非黑即白”。具体来讲，对于一个无标签的数据，低密度分离理论倾向于很“武断”的将其设置为一个特定的标签，而不是根据概率分布将其设置为所有可能的标签。

以一个图片分类的机器学习模型为例。这个机器学习模型的输入为一张图片，输出的结果为二分类，分类1表示输入图片中有狗，分类2表示输入图片中没有狗。现在有一些有标签的数据，可以用这些有标签的数据训练一个模型出来，记为基础模型。

使用基础模型可以预测无标签数据的类别，比如，无标签数据1输入进模型，模型可以预测其为类别1和类别2的概率。使用低密度分离理论，将为无标签数据根据其类别概率打一个确定的标签，也就是类别概率最高的那个标签。在给无标签数据打标签之后就可以将这个数据作为有标签数据加入到训练集中。

当然，我们希望仅使用有标签数据训练出来的基础模型在预测无标签数据时的输出结果更具有确定性，也就是输出结果的概率分布具有最大的确定性（熵最小）。

基于低密度分离理论可以对模型的损失函数（Loss）加上一个由无标签数据的预测概率熵的正则项，即：

分别为有标签和无标签数据，为有标签数据的标签，为无标签数据作为输入时的模型输出结果。

正则项的存在使得当损失函数最小化时，无标签数据的预测结果的概率分布的熵也会在某种程度上最小化，即使用有标签数据训练出来的模型对无标签数据的预测结果具有最大的确定性。

（完）

相关资讯

监督学习，半监督学习，无监督学习的区别是什么

监督学习是机器学习的一种方法，它的目的是在给定的输入和输出数据集中训练模型，使模型能够根据新的输入数据预测期望的输出。在监督学习中，模型的输出是已知的，因此模型能够学习如何将输入映射到输出。常见的监督学习算法包括线性回归，逻辑回归和支持向量机。半监督学习是机器学习的一种方法，它的目的是在给定部分标记和部分未标记的数据集中训练模型。半监督学习的情况通常出现在标记数据集很小，但未标记数据集很大的情况下。半监督学习算法尝试从未标记数据集中学习，并借此提高模型的泛化能力。无监督学习是机器学习的一种方法，它的目

人工智能

算法星球 2023-01-04

汐攸攸 2023-05-12

机器学习基础-监督学习-训练数据-数据清洗

在机器学习中，数据清洗是指对原始数据进行预处理，以去除数据中的错误、重复、缺失值和异常值等问题。数据清洗可以提高数据质量和模型性能，从而使机器学习算法更加准确地分析和预测。

机器学习

欧阳胖胖 2023-04-28

半监督学习的低密度分离理论

推荐体验

相关资讯

监督学习，半监督学习，无监督学习的区别是什么

半监督学习方法总结

机器学习中监督学习与无监督学习——有什么区别？

机器学习｜有监督学习和无监督学习，线性回归问题的两种算法

机器学习基础-监督学习-训练数据-数据清洗

近期资讯

HarmonyOS的动画分类和功能特点

wx小程序中实现圆形堆叠渐变进度条

Spring 事务 @Transaction 讲解

CSS基础小结

系列3：【深入】qiankun动态与按需加载子应用—像电影一样控制出现时机

系列5：【深入】微前端中的权限控制——别让你的子应用为所欲为！

5、国际化实现方案

前端主题切换工程化实践方案

系列4：【深入】qiankun子应用间通信的多种实现方式—购物网站为例

git概念+使用教程+基本命令+以及和gitee关联(一)

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响