跟我一起啃西瓜书 | 1 绪论 | 超好理解 | 机器学习 | 周志华

作者：一只小蛮要发布时间：2023-07-24

机器学习

最近在啃西瓜书！要不要一起来！！！超级详细超级好懂！！！！！

1 绪论

1.1 引言

这一节主要就是告诉我们，机器学习主要用来解决一个什么样的问题，其实就是通过一种计算的手段，利用经验来改善系统自身的性能。首先，我们需要有数据，然后通过某种学习算法得到相应模型，最后使用模型进行预测。

1.2 基本术语

西瓜书嘛，都是西瓜，所以我们就用西瓜来举例啦！

前面我们提到机器学习的基本流程：

首先，我们需要有数据，然后通过某种学习算法得到相应模型，最后使用模型进行预测。

有数据

数据集（data set）：100 个西瓜
样本（sample）：100 个西瓜里面的1 个西瓜
特征向量（feature vector）：对应的就是样本空间，比如西瓜的颜色、大小、敲击产生的音色等等，维度呢，就是有几个特征，比如前面提到 3 个，那我们现在就说它的维度是 3 维。
属性（attribute）/ 特征（feature）：特征向量中的某一个向量，也就是某个特征，比如西瓜的颜色。

通过某种学习算法

学习（Learning）/ 训练（Training）：在对一个算法进行一些设计的时候，我们要用数据对模型进行训练，让模型拥有自己学习的能力。

得到相应模型

分类（classification）：分类问题主要有二分类和多分类。二分类就是指分类结果只有两种，要么是，要么不是！比如在瓜农眼中，这个瓜它熟了没，我到底是摘还是不摘！就两个选项，他会通过这个瓜的各方面特征如颜色、大小等，也就是我们前面提到的特征向量，去判断它到底该不该摘，这就是二分类。多分类问题的分类结果一定是大于 2，比如我们去盒马买西瓜，西瓜有很多种，像是黑美人、8424、麒麟瓜等等，反正不止两种，那你到底要买哪一种嘞？那在这种情况下，就是一个多分类问题。
回归（regression）：首先我们用专业术语描述一下，回归是连续空间，分类是离散空间。简单来讲，其实回归就是指它对应的标签是一个实数集，不是有限的，比如你想要知道某段时间内西瓜价格的走势，确定什么时候西瓜最便宜，这种问题就是一个回归问题，可以去预测西瓜在未来某个时间段内的价格，价格可以从 0 到无穷大都可以对不对！
聚类（clustering）：不知该分几类，让机器自己区分，每个类我们就称为一个“簇”（cluster）。比如一堆西瓜并没有明确的类别，老板随便分，也不是那么随便，他按照产地啦、颜色啦这些潜在特征把一批西瓜分成了好几类，然后每一类定价都不一样，这就是一种聚类。
有监督学习（supervised learning）：样本有明确标签，比如分类和回归
无监督学习（unsupervised learning）：样本无明确标签，比如聚类