当前位置:首页|资讯

【机器学习基础】超全汇总!机器学习常用术语词汇表(建议收藏)

作者:曾开心哈发布时间:2024-10-18


刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表,一定是你必不可少的入门资料!本术语表列出了基本的机器学习术语和 TensorFlow 专用术语的定义,希望能帮助您快速熟悉 TensorFlow 入门内容,轻松打开机器学习世界的大门。

(完整版PDF文末领取)

算法与模型相关

  • 强化学习

    • 智能体(agent)在环境中进行一系列动作,通过获得奖励来学习最优的行为策略,以最大化长期累积奖励。常用于机器人控制、游戏等领域。

  • 分类算法

    • 监督学习中的一类算法,用于将数据分为不同的类别。常见的分类算法有决策树、支持向量机、朴素贝叶斯等。

  • 回归算法

    • 同样是监督学习算法,用于预测连续的数值,如预测股票价格、房价等。线性回归是最基本的回归算法之一。

  • 聚类算法

    • 无监督学习算法,将数据对象分成不同的簇,使得同一簇内的数据对象具有较高的相似性,而不同簇之间的相似性较低。例如 K-Means 聚类算法。

  • 决策树

    • 一种基于树结构的算法,通过对数据的特征进行条件判断,构建决策树来进行分类或回归预测。每个内部节点是一个属性上的测试,分支是测试输出,叶节点是类别或值。

  • 随机森林

    • 基于决策树的集成学习算法,从原始训练数据集有放回地抽样构建多个子数据集,分别训练决策树,然后综合决策树的预测结果进行最终预测,能够提高模型的稳定性和准确性。

  • 支持向量机(SVM)

    • 一种二分类模型,通过寻找一个超平面来将不同类别的数据分隔开,使得数据点到超平面的距离最大化,从而实现对数据的分类。

  • 神经网络

    • 模仿生物大脑神经元之间的信息传递方式构建的模型,由多个神经元组成,通过调整神经元之间的连接权重来学习数据的特征和规律,是深度学习的基础。


数据相关

  • 数据集

    • 用于训练和测试机器学习模型的数据集合,包含多个数据样本,每个样本通常由输入特征和输出标签(在监督学习中)组成。

  • 特征

    • 也称为特征向量,是描述数据对象的属性或变量,是机器学习模型的输入。例如在图像识别中,图像的像素值、颜色特征等就是特征。

  • 特征工程

    • 对原始数据进行处理和转换,提取和构建有意义的特征,以提高模型的性能和准确性。包括数据清洗、特征选择、特征提取、特征构建等步骤。

  • 数据清洗

    • 处理数据集中的缺失值、异常值、重复值等问题,保证数据的质量和一致性,以便模型能够正确地学习数据中的规律。

  • 过拟合

    • 模型在训练数据上表现很好,但在新的未见过的数据上表现很差的现象。通常是因为模型过于复杂,学习到了训练数据中的噪声和特定模式,而无法泛化到新数据上。

  • 欠拟合

    • 模型在训练数据和测试数据上的表现都很差,说明模型没有很好地学习到数据中的规律和特征,通常是因为模型过于简单或训练不足。


评估指标相关

  • 准确率(Accuracy)

    • 分类模型中最常用的评估指标之一,计算正确分类的样本数占总样本数的比例,反映了模型对整体数据的分类准确程度。

  • 精确率(Precision)

    • 针对二分类问题,精确率是指预测为正类的样本中真正为正类的比例,侧重于关注预测为正类的准确性。

  • 召回率(Recall)

    • 也是二分类问题中的指标,召回率是指真正为正类的样本中被预测为正类的比例,强调了对正类样本的覆盖程度。

  • F1 值

    • 是精确率和召回率的调和平均数,综合考虑了模型的精确性和召回能力,F1 值越高,说明模型在精确率和召回率之间取得了较好的平衡。

  • 均方误差(MSE)

    • 回归模型中常用的评估指标,计算预测值与真实值之间差值的平方的平均值,反映了预测值与真实值之间的差异程度。

  • R² 得分

    • 衡量回归模型拟合优度的指标,表示模型能够解释因变量方差的比例,取值范围在 0 到 1 之间,R² 值越接近 1,说明模型对数据的拟合效果越好。


模型训练与优化相关

  • 梯度下降

    • 一种常用的优化算法,用于求解模型参数的最优值。通过计算目标函数关于参数的梯度,沿着梯度的反方向更新参数,使得目标函数值逐渐减小,直到达到最小值或收敛。

  • 学习率

    • 在梯度下降算法中,学习率是一个重要的超参数,决定了每次参数更新的步长。学习率过大可能导致模型无法收敛,学习率过小则会使训练过程过于缓慢。

  • 超参数

    • 与模型参数不同,超参数是在模型训练之前需要手动设置的参数,如神经网络的层数、每层的神经元个数、学习率等,它们会影响模型的性能和训练过程。

  • 交叉验证

    • 一种用于评估模型性能和选择模型超参数的方法。将数据集分成多个子集,一部分作为训练集,一部分作为验证集,通过多次不同的划分和训练,综合评估模型的性能,以减少过拟合的风险。

  • 正则化

    • 一种防止过拟合的技术,通过在目标函数中添加正则项,对模型的参数进行约束,使得模型的复杂度降低,从而提高模型的泛化能力。常见的正则化方法有 L1 正则化和 L2 正则化。

其他:

以上是机器学习中一部分常用的术语,了解这些术语对于深入学习和应用机器学习技术非常重要。需要完整版PDF的可通过一下方式领取:

如何获取资料:

1、一键三连+关注

2、后台回复“机器学习”即可


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1