当前位置:首页|资讯|机器学习|编程

《机器学习实战》(蜥蜴书)——学习笔记1

作者:苦茶今天断更了吗发布时间:2023-05-04

什么是机器学习?

机器学习是一门通过编程让计算机从数据中进行学习的科学。

系统用来进行学习的样例称作训练集

机器学习系统的类型?

👉有监督学习、无监督学习、半监督学习、强化学习。

有监督学习中,提供给算法的包含所需解决方案的训练集成为标签

【分类任务】是一个典型的有监督学习任务(垃圾邮件)。

另一个典型的任务【回归】:通过给定一组称为预测器的特征来预测一个目标数值。

最重要的有监督学习算法:k-近邻算法、线性回归、逻辑回归、支持向量机SVM、决策树和随机森林、神经网络。

——————

无监督学习的训练数据都是未经标记的。

最重要的无监督学习算法:

①聚类算法:k-均值算法、DBSCAN、分层聚类分析HCA

②异常检测和新颖性检测:单类SVM、孤立森林

③可视化和降维:主成分分析PCA、核主成分分析、局部线性嵌入LLE、t-分布随机近邻嵌入t-SNE

④关联规则学习:Apriori、Eclat

降维的目的是在不丢失太多信息的前提下简化数据,方法之一是将多个相关特征合并为一个。

————————

半监督学习算法可以处理部分已标记的数据。

————

强化学习的学习系统(智能体)能够观察环境、做出选择、执行动作,并获得回报。它必须自行学习什么是最好的策略,从而随着是时间的推移获得最大的回报。


👉在线学习、批量学习。

批量学习中,系统无法进行增量学习,必须使用所有可用数据进行训练。

通常离线完成,学习新数据需要重新训练系统的新版本来代替旧版本。

——————

在线学习中,可循序渐进地给系统提供训练数据。可单独数据、可小批量地小组数据。

学习率】一个重要的参数:其适应不断变化的数据的速度

挑战:如果给系统输入不良数据,系统的性能会下降。


👉基于实例的学习、基于模型的学习。

看如何泛化

基于实例的学习,使用相似度度量来比较新实例和已经学习的实例,从而泛化新实例。

————————

基于模型的学习,构建实例的模型来进行预测。


机器学习的挑战?

训练数据的数量不足、训练数据不具代表性、低质量数据、无关特征、过拟合训练数据、欠拟合训练数据。


端到端的机器学习项目

主要步骤:观察大局→获得数据→从数据探索和可视化中获得洞见→机器学习算法的数据准备→选择并训练模型→微调模型→展示解决方案→启动、监控和维护系统。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1