【机器学习】AutoGluon：亚马逊自动机器学习工具，初学者的福音

作者：人工智能大讲堂发布时间：2023-10-16

机器学习亚马逊微软编程

如果一个机器学习初学者，仅用三行代码就训练了一个模型，并且模型的性能要比从业数十年的都要好，这是一种什么样的感觉？

AutoGluon就能帮你梦想成真。

上面这张图片就是AutoGluon的工作流，多么简单啊！根据数据类型（问题定义）实例化任务，仅通过一个fit函数就完成了训练过程，仅通过一个predict函数就完成了对新数据的预测过程。

那么，模型，损失函数，优化器，超参数的选择哪去了？

所有这一切AutoGluon都帮你做了。

我之前介绍过微软的NNI，同样是AutoML工具，为什么还要介绍AutoGluon呢？

因为NNI不够亲民。

来看一下NNI是如何进行超参数搜索的？

Step1：准备模型

Step2：定义搜索空间

Step3：配置实验

配置实验代码

配置搜索空间

配置微调算法

配置实验次数

Step4：开始实验

实验可以理解为一个超参数搜索过程，为什么说它不够亲民呢？

第一步你需要自己选择模型，可我是个初学者，我咋知道选择什么模型？我甚至连模型是啥都不知道，就算有点经验的人，在是选择传统的机器学习还是神经网络方面也会犯糊涂，毕竟，就连吴恩达老师在这个问题上都承认犯过错误。

可见，选择多了也不是什么好事。

可这还没完，接下来你仍然要面临选择，例如，传统机器学习中能完成分类任务的也不止一个，有基于树的分类器：决策树，提升树，贝叶斯分类器，逻辑回归，SVM等等。

神经网络中也有卷积神经网络CNN，前馈神经网络类ANN以及循环神经网络RNN，仍然要面临类似的选择问题，例如，对于NLP任务，大家首先想到的是RNN，但你可知道CNN也能完成同样的任务。

第二步你需要自己定义搜索空间，空间定义大了，搜索过程会慢，定义小了会错过最优解，甚至连划分粒度都得小心翼翼。

第三步中你需要自己定义搜索算法，是选择基于贝叶斯优化的搜索算法还是强化学习的搜索算法？虽然是个选择题，可是选择哪个鬼真是一点思路都没有啊！

。。。

之前对NNI的一顿吹真是啪啪打自己的脸？

总结来说，不是NNI不好，而是NNI需要有一定的经验和基础。

封装程度

NNI的问题在AutoGluon中三行代码就搞定了。

可见，AutoGluon的封装程度很高。什么是封装程度呢？

举个例子，要使用GPU的并行计算能力。

你是个软件工程师，不想触碰硬件，显卡驱动代替你与硬件交流，你就不用读硬件手册，不用了解寄存器或者总线地址什么的了。

可你仍然不想内核编程，所以CUDA出现了，CUDA代替你与驱动交流，你就不用去了解系统调用等复杂的API了。

可是面对浩如烟海的CUDA API仍然令人头疼，所以机器学习框架代替你与CUDA交流，你只需要一句话device=“gpu”就用上并行计算了。

但封装程度越高，也就意味着可控程度越低。

如何使用AutoGluon？

使用AutoGluon，你的工作重心就一个：选择任务类型。

每一个任务类型都有两个重要的角色：DataSet和Predictor。前者用于处理数据，后者用于拟合模型。

在AutoGluon中有三种任务类型。表格任务，多模态任务，以及时序任务。

表格任务

机器学习界的hello world想必你肯定知道吧，加利福尼亚房价预测，也就是输入房屋的面积，房间数，是否邻街道等等特征，输出预测的房价。

我们通常把这种类型的数据称为表格数据。

能处理表格数据的任务就是表格任务。对应的DataSet和Predictor为TabularDataset和TabularPredictor。

来看一个具体的例子：

使用TabularDataset加载数据，可以加载网络数据也可以加载本地数据。

重要的是，你不需要进行数据预处理操作，AutoGluon会帮你数据清理，归一化，异常值处理等操作。

除此之外，还可以输出数据的统计信息。

label = 'signature'指定输出列，这很重要，因为后续要根据这个选择模型，之后就可以模型训练了。

虽然一行代码就搞定了。但通过日志可知它背着我们做了很多事。

通过日志可知，它首先进行特征工程，根据输出列数据类型判断是分类任务还是回归任务，然后训练了多个模型，并将多个模型集成到一起作为最终模型。

同样一行代码就完成了新数据的预测。

多模态任务

MultiModalPredictor包含各种深度学习模型，用于处理多模态输入，例如，图像，文本，表格数据。

AutoGluon能自动识别数据类型，例如，AutoGluon的多模态数据格式要求,图像列应包含一个字符串,该字符串的值为指向单个图像文件的路径。

举个例子，根据宠物的文本描述，体重等表格特征，以及宠物的图片来预测宠物的被收养率。

解压数据

使用pandas读取CSV文件，并转换成DataFrame格式，指定输出列。

将图像列转换为标准路径格式。

开始训练

根据日志可知AutoGluon选择了MultimodalFusionMLP模型，也就是将提取的图像特征，文本特征以及表格特征拼接到一起，然后送入MLP网络。

因为输出的是概率，所以选择了交叉熵损失函数。

时序任务

时序任务的对应的DataSet和Predictor为TimeSeriesDataFrame和TimeSeriesPredictor。

例如，用AutoGluon预测未来某个时间的股票值。

加载数据

转换为TimeSeriesDataFrame格式

target为输出列。

模型训练

AutoGluon会训练多个模型，并按照性能排序。

相关资讯

自动机器学习：让机器自动化设计最佳学习流程

本文将探讨自动机器学习的概念、关键技术、应用场景以及面临的挑战，展示其如何让机器学习变得更加高效和易于访问。尽管在计算资源、模型泛化、用户定制化、可解释性和安全性等方面存在挑战，但随着技术的发展和研究的深入，…

机器学习

星熊亦之 2024-03-16

机器学习 100 天 – 初学者完整指南

机器学习是广泛的人工智能领域中一个快速发展的领域。它涉及开发可以自动从数据中学习模式和见解的算法，而无需显式编程。近年来，随着企业发现机器学习在推动创新、改进决策和获得竞争优势方面的潜力，机器学习变得

机器学习人工智能编程

鲸落_ 2023-09-21

用Python和项目进行机器学习(初学者)

用Python和项目进行机器学习(初学者)初学者用Python完成机器学习课程你会学到:Python上的主机器学习进行有力的分析做出准确的预测制作健壮的机器学习模型将机器学习用于个人目的建立一支强大的机器学习模型大军，并知道如何将它们结合起来解决任何问题使用K-均值聚类、支持向量机(SVM)、KNN、决策树、朴素贝叶斯和主成分分析对数据进行分类清理您的输入数据以移除异常值MP4 |视频:h264，1280×720 |音频:AAC，44.1 KHz，2 Ch语言：英语+中英文字幕（云桥网络机译） |时长:

人工智能

云桥网络 2023-01-07

终于找到初学者学不懂机器学习和深度学习的原因了！

在当今科技飞速发展的时代，机器学习和深度学习已经成为了热门领域，吸引着无数人想要深入学习。然而，很多初学者在学习过程中常常会遇到各种困难，感到困惑和迷茫。那么，初学者学不懂机器学习和深度学习的原因究竟是什么呢？一、原因分析1. 理论知识复杂机器学习和深度学习涉及到大量的数学、统计学和计算机科学知识，如线性代数、概率论、优化算法等。对于没有相关背景的初学者来说，这些理论知识往往过于抽象和复杂，难以理解和掌握。2. 缺乏实践经验学习机器学习和深度学习不仅需要掌握理论知识，还需要进行大量的实践。然而，很多初学者

机器学习深度学习

曾开心哈 2024-08-29

（013）使用Python中的AutoGloon库进行自动机器学习

(013)Automated Machine Learning with AutoGluon Library in Python使用Python中的AutoGloon库进行自动机器学习你将学到什么了解Autogluon Python库的基本知识及其自动化机器学习任务的功能。了解如何在本地环境中安装和设置Autogluon Python库。发展数据准备和清洁过程的技能，这对使用Autogluon成功实现机器学习结果至关重要。探索选择和配置机器学习模型的最佳实践，以最小的工作量获得最佳结果。探索如何使用Aut

人工智能机器学习

换屏，听起来似乎是个高大上的技术活儿，但其实只要掌握一些基本的知识和技巧，自己动手也能轻松搞定。换屏之前，最好先在网上查查你的设备型号，看看有没有相关的拆解教程视频。

新报观察 2024-12-28

【机器学习】AutoGluon：亚马逊自动机器学习工具，初学者的福音

推荐体验

相关资讯

自动机器学习：让机器自动化设计最佳学习流程

机器学习 100 天 – 初学者完整指南

用Python和项目进行机器学习(初学者)

终于找到初学者学不懂机器学习和深度学习的原因了！

（013）使用Python中的AutoGloon库进行自动机器学习

近期资讯

陕西泰和源取得一种非金属管道封堵装置专利，提高满水静压试验的安全性、准确性和效率

如何通过数据分析与经验提升预测准确性，掌握未来的不确定性技能

万联取得一种管道超压自动泄放装置专利，能在管体内部压力超过设定值时自动、迅速地进行泄放

掌握绘画技巧，轻松画出电脑的详细步骤与方法

掌握PowerPoint绘图技巧，轻松制作吸引人的演示图形

中铁工程装备集团有限公司取得管道扫描设备搭载装置专利，提高施工安全性

深圳市大森林地理信息勘测工程有限公司取得地下管线探测预警装置专利，避免装置因地形和气味影响难以收集的问题

辽源市长江胶管取得一种作用位置便调节的铠装橡胶管专利，减轻装置整体重量

拯救者软件：轻松截图与编辑的全能助手

掌握换屏技巧，自助维修手机、平板和电脑的全面指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响