当前位置:首页|资讯|机器学习

跟我一起啃西瓜书 | 1 绪论 | 超好理解 | 机器学习 | 周志华

作者:一只小蛮要发布时间:2023-07-24

最近在啃西瓜书!要不要一起来!!!超级详细超级好懂!!!!!

1 绪论

1.1 引言

这一节主要就是告诉我们,机器学习主要用来解决一个什么样的问题,其实就是通过一种计算的手段,利用经验来改善系统自身的性能。首先,我们需要有数据,然后通过某种学习算法得到相应模型,最后使用模型进行预测

1.2 基本术语

西瓜书嘛,都是西瓜,所以我们就用西瓜来举例啦!

前面我们提到机器学习的基本流程:

首先,我们需要有数据,然后通过某种学习算法得到相应模型,最后使用模型进行预测

  • 有数据

    • 数据集(data set):100 个西瓜

    • 样本(sample):100 个西瓜里面的1 个西瓜

    • 特征向量(feature vector):对应的就是样本空间,比如西瓜的颜色、大小、敲击产生的音色等等,维度呢,就是有几个特征,比如前面提到 3 个,那我们现在就说它的维度是 3 维。

    • 属性(attribute)/ 特征(feature):特征向量中的某一个向量,也就是某个特征,比如西瓜的颜色。

  • 通过某种学习算法

    • 学习(Learning)/ 训练(Training):在对一个算法进行一些设计的时候,我们要用数据对模型进行训练,让模型拥有自己学习的能力。

  • 得到相应模型

    • 分类(classification):分类问题主要有二分类多分类。二分类就是指分类结果只有两种,要么是,要么不是!比如在瓜农眼中,这个瓜它熟了没,我到底是摘还是不摘!就两个选项,他会通过这个瓜的各方面特征如颜色、大小等,也就是我们前面提到的特征向量,去判断它到底该不该摘,这就是二分类。多分类问题的分类结果一定是大于 2,比如我们去盒马买西瓜,西瓜有很多种,像是黑美人、8424、麒麟瓜等等,反正不止两种,那你到底要买哪一种嘞?那在这种情况下,就是一个多分类问题。

    • 回归(regression):首先我们用专业术语描述一下,回归是连续空间,分类是离散空间。简单来讲,其实回归就是指它对应的标签是一个实数集,不是有限的,比如你想要知道某段时间内西瓜价格的走势,确定什么时候西瓜最便宜,这种问题就是一个回归问题,可以去预测西瓜在未来某个时间段内的价格,价格可以从 0 到无穷大都可以对不对!

    • 聚类(clustering):不知该分几类,让机器自己区分,每个类我们就称为一个“簇”(cluster)。比如一堆西瓜并没有明确的类别,老板随便分,也不是那么随便,他按照产地啦、颜色啦这些潜在特征把一批西瓜分成了好几类,然后每一类定价都不一样,这就是一种聚类。

    • 有监督学习(supervised learning):样本有明确标签,比如分类和回归

    • 无监督学习(unsupervised learning):样本无明确标签,比如聚类

  • 进行预测

    • 泛化(generalization)能力:预测没有在训练集中出现的数据的能力,也就是适用于新样本新样本的能力。

1.3 假设空间

这部分也相对简单,讲述了科学推理的手段,主要有归纳(induction)和演绎(deduction)两大基本手段。

  • 归纳:特殊到一般

    • 狭义:从训练数据中得到概念,所以又称为”概念学习“或”概念形成“。比如最基本的布尔概念,即对”是“或”不是“这样可表示为 0/1 布尔值的目标概念的学习。

    • 广义:从样本中学习

  • 演绎:一般到特殊

1.4 归纳偏好

同一个数据集训练出不同的模型,我们该如何进行选择呢?

有一个常用的最基本的原则,就是“奥卡姆剃刀”(Occam's razor),它的原理就是选择最简单的那个模型,当然也有其他的解释,但我觉得这么理解就可以啦!当然它并不是唯一可行的原则。

之后西瓜书使用很长的篇幅去推导期望,但是由于假设不成立,我们就跳过好不好,当然,有兴趣的朋友们可以去看看!

1.5 发展历程

太长自己去看!大概就是说机器学习这个东西,就是一个程序,有自我改善的能力,人为干预越少越好,通过不断地处理数据集,它会不断地进化阿巴阿巴。

1.6 应用现状

1.7 阅读材料

参考资料

  1. 西瓜书

  2. https://www.bilibili.com/video/BV17J411C7zZ



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1