由于图片过大,建议下载到本地放大后进行阅读,关注微信公众号:人工智能大讲堂,后台回复【mds】获取思维导图下载链接,后续更新也同样放到这个位置。
今天的主题虽然只包含传统机器学习算法,但还是想聊聊它和深度学习的区别。
传统机器学习模型通常有很多假设和限制,正是这些假设和限制影响了模型的性能和适用性。
例如,在传统机器学习中,通常需要在假设空间中选择一个特定的模型来拟合数据,例如,回归问题中应该选择几元几次函数?分类问题中应该选择什么样的决策平面?聚类问题中的聚类中心数量是多少?决策树的层数,随机森林的决策树个数设置多少?对于这些超参数的选择,要么基于经验,要么基于AutoML,无论选择什么值,是不是会有其它更好的选择?
此外,传统机器学习模型通常也会假设数据的分布是已知的或可以通过一些简单的分布假设来建模。例如,回归问题中假设观测误差符合正太分布,贝叶斯回归中假设参数符合高斯分布,朴素贝叶斯假设多个随机变量相互独立,这些假设可能只是大致符合规律并不是真实分布体现,所以可能会导致模型无法很好地适应复杂的数据分布,从而影响模型的预测能力。
所以在工业界几乎没有人会只部署一个回归模型去解决金融问题,如果非要选择传统机器学习算法,也会选择集成学习模型。
然而,随着深度学习的发展,一些新的模型和方法已经出现,这些模型和方法可以更好地捕捉复杂的数据分布,并且可以更灵活地适应数据。例如,深度神经网络可以通过学习复杂的非线性函数来适应各种不同类型的数据,而无需进行特定的假设或先验知识。
在深度学习出现以后,很多人认为传统机器学习算法已经成为鸡肋了,虽然我们反复强调,当数据量不足时,机器学习可能比深度学习更合适,其解释性也比深度学习强。但这句话本身是不是也表达了一种无奈呢?