什么是机器学习?
机器学习是一门通过编程让计算机从数据中进行学习的科学。
系统用来进行学习的样例称作训练集。
机器学习系统的类型?
👉有监督学习、无监督学习、半监督学习、强化学习。
有监督学习中,提供给算法的包含所需解决方案的训练集成为标签。
【分类任务】是一个典型的有监督学习任务(垃圾邮件)。
另一个典型的任务【回归】:通过给定一组称为预测器的特征来预测一个目标数值。
最重要的有监督学习算法:k-近邻算法、线性回归、逻辑回归、支持向量机SVM、决策树和随机森林、神经网络。
——————
无监督学习的训练数据都是未经标记的。
最重要的无监督学习算法:
①聚类算法:k-均值算法、DBSCAN、分层聚类分析HCA
②异常检测和新颖性检测:单类SVM、孤立森林
③可视化和降维:主成分分析PCA、核主成分分析、局部线性嵌入LLE、t-分布随机近邻嵌入t-SNE
④关联规则学习:Apriori、Eclat
降维的目的是在不丢失太多信息的前提下简化数据,方法之一是将多个相关特征合并为一个。
————————
半监督学习算法可以处理部分已标记的数据。
————
强化学习的学习系统(智能体)能够观察环境、做出选择、执行动作,并获得回报。它必须自行学习什么是最好的策略,从而随着是时间的推移获得最大的回报。
👉在线学习、批量学习。
批量学习中,系统无法进行增量学习,必须使用所有可用数据进行训练。
通常离线完成,学习新数据需要重新训练系统的新版本来代替旧版本。
——————
在线学习中,可循序渐进地给系统提供训练数据。可单独数据、可小批量地小组数据。
【学习率】一个重要的参数:其适应不断变化的数据的速度。
挑战:如果给系统输入不良数据,系统的性能会下降。
👉基于实例的学习、基于模型的学习。
看如何泛化。
基于实例的学习,使用相似度度量来比较新实例和已经学习的实例,从而泛化新实例。
————————
基于模型的学习,构建实例的模型来进行预测。
机器学习的挑战?
训练数据的数量不足、训练数据不具代表性、低质量数据、无关特征、过拟合训练数据、欠拟合训练数据。
端到端的机器学习项目
主要步骤:观察大局→获得数据→从数据探索和可视化中获得洞见→机器学习算法的数据准备→选择并训练模型→微调模型→展示解决方案→启动、监控和维护系统。
大忠电子 2024-12-03
莱森光学LiSenOptics 2024-12-04
迅杰光远 2024-12-03
雁鹏工业软件 2024-12-03
菲尔FREY 2024-12-13
迅杰光远 2024-12-03