随着人工智能快速发展,从阿法狗到今天的ChatGPT,人工智能可谓是日新月异,为了更好学习人工智能技术,针对人工智能技术进行总结和分享。我们在人工智能领域经常提到机器学习、深度学习以及LLM他们之间是什么关系。帮自己建立系统性的思维。
人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门技术科学。 简单地说,就是给机器赋予人的智能。机器学习是人工智能的一个子集,目前已经发展出许多有用的方法,比如支持向量机,回归,决策树,随机森林,强化方法,集成学习,深度学习等等,这些都是我们经常听到算法,今天着重介绍一下人工智能现在最大的研究方向:机器学习。
机器学习
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。最基本的做法是使用算法解析数据、从中学习,然后对真实世界中的事件作出决策或预测。
机器学习分类
按模型训练方式分:
监督学习(Supervised Learning)
(2)半监督学习(Semi-supervised Learning)
(3)无监督学习(Unsupervised Learning)
(4)强化学习(Reinforcement Learning)
监督学习
监督学习(Supervised Learning)监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签,训练一个预测模型,将输入数据映射到标签的过程。把已知的“问题和答案”(训练集)提供给机器去学习,机器总结出自己的“方法论”。把“新的问题”(测试集)提供给机器去解答
监督学习主要任务:
回归:预测连续的、具体的数值
分类:对各种事物分类,用于离散型预测
常见的有监督机器学习算法包括:
(1)支持向量机(Support Vector Machine, SVM)
(2)朴素贝叶斯(Naive Bayes)
(3)逻辑回归(Logistic Regression)
(4)K近邻(K-Nearest Neighborhood, KNN)
(5)决策树(Decision Tree)
(6)随机森林(Random Forest)
(7)AdaBoost
(8)线性判别分析(Linear Discriminant Analysis, LDA)等。
(9)深度学习(Deep Learning)也是大多数以监督学习的方式呈现。
半监督学习
半监督学习(Semi-supervised Learning)在此学习方式下,输入数据部分被标记,部分没有被标记,这种学习模型可以用来进行预测。这类学习算法非常贴合现实场景,我们在实际场景中很容易收集到未标记的数据,标记的数据往往是少量的。
常见应用场景:应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,通过对已标记数据建模,在此基础上,对未标记数据进行预测。
半监督进一步划分为纯半监督学习和直推学习:
(1)半监督学习:假定训练数据中未标记数据样本并非待预测数据。
(2)直推学习:未标记数据样本就是待预测数据。
常见的半监督学习算法包括:
(1)半监督支持向量机(Semi-Supervised Support Vector Machine,S3VM)
(2)图半监督学习
(3)基于分歧的方法(disagreement-based method)
无监督学习
无监督学习(Unsupervised Learning)本质上是一种统计手段,在没有标签的数据里发现潜在的一些结构的训练方法。简言之:给定数据,寻找隐藏的结构。
无监督学习应用场景:
(1)发现异常数据
(2)聚类,如细分用户
(3)给用户做推荐
(4)关联规则的学习
常见的无监督学习算法包括:
(1)Apriori算法
(2)k-Means算法
强化学习
强化学习(reinforcement learning)
主要基于决策进行训练,根据输出结果(决策)的成功或失败来训练算法,通过大量经验训练优化后的算法将能够给出较好的预测。简言之:给定数据,学习如何选择一系列行动,以最大化长期收益。
强化学习主要任务:
科学决策:优化决策以得到最佳结果。
动态规划:把复杂问题分解成若干个子问题,通过寻找子问题的最优解来得到复杂问题的最优解。
机器学习任务
从开发视角出发,我们经常接收到具体任务去划分类别,可能更容易整体理解机器学习,机器学习任务基本可以分成3种:
(1)回归
(2)分类
(3)聚类
回归常用的算法有:
(1)线性回归
(2)非线性回归
(3)回归树
(4)深度学习
常用评估指标有:
均方误差(Mean Square Error, MSE)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error, RMSE)、R-squared(coefficient of detemination)拟合和MAPE(Mean Absolute Percentage Error, MAPE)
分类常用的算法:
(1)分类树
(2)逻辑回归
(3)k-最近邻算法
(4)支持向量机
(5)朴素贝叶斯
(6)深度学习
常用评估指标有:
准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线(Precision-Recall Curve)、ROC、AUC。
聚类算法有:
(1)k均值聚类(K-Means)
(2)层次聚类(Hierarchical Clustering)
评估的指标有:
外部指标:Jaccard系数(Jaccard Cofficient,JC) 、FM指数(Fowlkes and Mallows Index, FMI)、Rand指数(Rand Index, RI)
内部指标:DB指数(Daives-Bouldin Index,DBI)、Dunn指数(Dunn Index,DI)和SC轮廓指数(Shihouette Coefficient ,SC)