刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表,一定是你必不可少的入门资料!本术语表列出了基本的机器学习术语和 TensorFlow 专用术语的定义,希望能帮助您快速熟悉 TensorFlow 入门内容,轻松打开机器学习世界的大门。
(完整版PDF文末领取)
强化学习
智能体(agent)在环境中进行一系列动作,通过获得奖励来学习最优的行为策略,以最大化长期累积奖励。常用于机器人控制、游戏等领域。
分类算法
监督学习中的一类算法,用于将数据分为不同的类别。常见的分类算法有决策树、支持向量机、朴素贝叶斯等。
回归算法
同样是监督学习算法,用于预测连续的数值,如预测股票价格、房价等。线性回归是最基本的回归算法之一。
聚类算法
无监督学习算法,将数据对象分成不同的簇,使得同一簇内的数据对象具有较高的相似性,而不同簇之间的相似性较低。例如 K-Means 聚类算法。
决策树
一种基于树结构的算法,通过对数据的特征进行条件判断,构建决策树来进行分类或回归预测。每个内部节点是一个属性上的测试,分支是测试输出,叶节点是类别或值。
随机森林
基于决策树的集成学习算法,从原始训练数据集有放回地抽样构建多个子数据集,分别训练决策树,然后综合决策树的预测结果进行最终预测,能够提高模型的稳定性和准确性。
支持向量机(SVM)
一种二分类模型,通过寻找一个超平面来将不同类别的数据分隔开,使得数据点到超平面的距离最大化,从而实现对数据的分类。
神经网络
模仿生物大脑神经元之间的信息传递方式构建的模型,由多个神经元组成,通过调整神经元之间的连接权重来学习数据的特征和规律,是深度学习的基础。
数据集
用于训练和测试机器学习模型的数据集合,包含多个数据样本,每个样本通常由输入特征和输出标签(在监督学习中)组成。
特征
也称为特征向量,是描述数据对象的属性或变量,是机器学习模型的输入。例如在图像识别中,图像的像素值、颜色特征等就是特征。
特征工程
对原始数据进行处理和转换,提取和构建有意义的特征,以提高模型的性能和准确性。包括数据清洗、特征选择、特征提取、特征构建等步骤。
数据清洗
处理数据集中的缺失值、异常值、重复值等问题,保证数据的质量和一致性,以便模型能够正确地学习数据中的规律。
过拟合
模型在训练数据上表现很好,但在新的未见过的数据上表现很差的现象。通常是因为模型过于复杂,学习到了训练数据中的噪声和特定模式,而无法泛化到新数据上。
欠拟合
模型在训练数据和测试数据上的表现都很差,说明模型没有很好地学习到数据中的规律和特征,通常是因为模型过于简单或训练不足。
准确率(Accuracy)
分类模型中最常用的评估指标之一,计算正确分类的样本数占总样本数的比例,反映了模型对整体数据的分类准确程度。
精确率(Precision)
针对二分类问题,精确率是指预测为正类的样本中真正为正类的比例,侧重于关注预测为正类的准确性。
召回率(Recall)
也是二分类问题中的指标,召回率是指真正为正类的样本中被预测为正类的比例,强调了对正类样本的覆盖程度。
F1 值
是精确率和召回率的调和平均数,综合考虑了模型的精确性和召回能力,F1 值越高,说明模型在精确率和召回率之间取得了较好的平衡。
均方误差(MSE)
回归模型中常用的评估指标,计算预测值与真实值之间差值的平方的平均值,反映了预测值与真实值之间的差异程度。
R² 得分
衡量回归模型拟合优度的指标,表示模型能够解释因变量方差的比例,取值范围在 0 到 1 之间,R² 值越接近 1,说明模型对数据的拟合效果越好。
梯度下降
一种常用的优化算法,用于求解模型参数的最优值。通过计算目标函数关于参数的梯度,沿着梯度的反方向更新参数,使得目标函数值逐渐减小,直到达到最小值或收敛。
学习率
在梯度下降算法中,学习率是一个重要的超参数,决定了每次参数更新的步长。学习率过大可能导致模型无法收敛,学习率过小则会使训练过程过于缓慢。
超参数
与模型参数不同,超参数是在模型训练之前需要手动设置的参数,如神经网络的层数、每层的神经元个数、学习率等,它们会影响模型的性能和训练过程。
交叉验证
一种用于评估模型性能和选择模型超参数的方法。将数据集分成多个子集,一部分作为训练集,一部分作为验证集,通过多次不同的划分和训练,综合评估模型的性能,以减少过拟合的风险。
正则化
一种防止过拟合的技术,通过在目标函数中添加正则项,对模型的参数进行约束,使得模型的复杂度降低,从而提高模型的泛化能力。常见的正则化方法有 L1 正则化和 L2 正则化。
其他:
以上是机器学习中一部分常用的术语,了解这些术语对于深入学习和应用机器学习技术非常重要。需要完整版PDF的可通过一下方式领取:
如何获取资料:
1、一键三连+关注
2、后台回复“机器学习”即可