最近在啃西瓜书!要不要一起来!!!超级详细超级好懂!!!!!
这一节主要就是告诉我们,机器学习主要用来解决一个什么样的问题,其实就是通过一种计算的手段,利用经验来改善系统自身的性能。首先,我们需要有数据,然后通过某种学习算法得到相应模型,最后使用模型进行预测。
西瓜书嘛,都是西瓜,所以我们就用西瓜来举例啦!
前面我们提到机器学习的基本流程:
首先,我们需要有数据,然后通过某种学习算法得到相应模型,最后使用模型进行预测。
有数据
数据集(data set):100 个西瓜
样本(sample):100 个西瓜里面的1 个西瓜
特征向量(feature vector):对应的就是样本空间,比如西瓜的颜色、大小、敲击产生的音色等等,维度呢,就是有几个特征,比如前面提到 3 个,那我们现在就说它的维度是 3 维。
属性(attribute)/ 特征(feature):特征向量中的某一个向量,也就是某个特征,比如西瓜的颜色。
通过某种学习算法
学习(Learning)/ 训练(Training):在对一个算法进行一些设计的时候,我们要用数据对模型进行训练,让模型拥有自己学习的能力。
得到相应模型
分类(classification):分类问题主要有二分类和多分类。二分类就是指分类结果只有两种,要么是,要么不是!比如在瓜农眼中,这个瓜它熟了没,我到底是摘还是不摘!就两个选项,他会通过这个瓜的各方面特征如颜色、大小等,也就是我们前面提到的特征向量,去判断它到底该不该摘,这就是二分类。多分类问题的分类结果一定是大于 2,比如我们去盒马买西瓜,西瓜有很多种,像是黑美人、8424、麒麟瓜等等,反正不止两种,那你到底要买哪一种嘞?那在这种情况下,就是一个多分类问题。
回归(regression):首先我们用专业术语描述一下,回归是连续空间,分类是离散空间。简单来讲,其实回归就是指它对应的标签是一个实数集,不是有限的,比如你想要知道某段时间内西瓜价格的走势,确定什么时候西瓜最便宜,这种问题就是一个回归问题,可以去预测西瓜在未来某个时间段内的价格,价格可以从 0 到无穷大都可以对不对!
聚类(clustering):不知该分几类,让机器自己区分,每个类我们就称为一个“簇”(cluster)。比如一堆西瓜并没有明确的类别,老板随便分,也不是那么随便,他按照产地啦、颜色啦这些潜在特征把一批西瓜分成了好几类,然后每一类定价都不一样,这就是一种聚类。
有监督学习(supervised learning):样本有明确标签,比如分类和回归
无监督学习(unsupervised learning):样本无明确标签,比如聚类
进行预测
泛化(generalization)能力:预测没有在训练集中出现的数据的能力,也就是适用于新样本新样本的能力。
这部分也相对简单,讲述了科学推理的手段,主要有归纳(induction)和演绎(deduction)两大基本手段。
归纳:特殊到一般
狭义:从训练数据中得到概念,所以又称为”概念学习“或”概念形成“。比如最基本的布尔概念,即对”是“或”不是“这样可表示为 0/1 布尔值的目标概念的学习。
广义:从样本中学习
演绎:一般到特殊
同一个数据集训练出不同的模型,我们该如何进行选择呢?
有一个常用的最基本的原则,就是“奥卡姆剃刀”(Occam's razor),它的原理就是选择最简单的那个模型,当然也有其他的解释,但我觉得这么理解就可以啦!当然它并不是唯一可行的原则。
之后西瓜书使用很长的篇幅去推导期望,但是由于假设不成立,我们就跳过好不好,当然,有兴趣的朋友们可以去看看!
太长自己去看!大概就是说机器学习这个东西,就是一个程序,有自我改善的能力,人为干预越少越好,通过不断地处理数据集,它会不断地进化阿巴阿巴。
略
略