【入门科普】机器学习的四个步骤

作者：人人都是产品经理发布时间：2024-03-07

机器学习人工智能

在学习人工智能之前，我们大多都需要提前了解一些有关机器学习的内容。这篇文章里，作者就阐述了机器学习训练“模型”的几个步骤，一起来看看。

学习人工智能，必须要了解机器学习。

我们可以把机器学习比喻成大脑学习。

大脑学习的成果是“智慧”，机器学习的成果就是“模型”。

机器学习训练“模型”有四个步骤：

第一步：“收集数据”好比“收集知识”
第二步：“训练模型”好比“消化理解”
第三步：“模型评估”好比“考试打分”
第四步：“模型部署”好比“走进社会”

一、收集数据

机器学习的基本理念是使用过去学习到的经验知识来预测新的问题，这个和大脑学习过程很像，我们需要见多识广，收集大量数据。

为训练模型收集到的数据随机分成两部分：

训练数据集：用于“消化理解”的题目
测试数据集：用于“考试打分”的题目

这些题目在机器学习里称之为“样本”。

“token”则是指数据集中最小有意义单元，如：一个单词、一个数字、一个汉字。

一般用token量来表示所用到的数据集大小；据说GPT4用了13万亿token用于训练。

二、训练模型

“智慧”从题目中的“信息”中推理出“答案”；

“模型”从样本中的“特征”中推理出“标签”。

以一个预测冰激凌销售收入的模型为案例：

特征：气温x1、降雨量x2、是否节假日x3…

标签：收入y

y = f(x1,x2,x3….)

机器学习最神奇的事情就是科学家们会选择合适的数学算法，这种算法可以从大量由x和y组成的样本里自行推导出f。

那些天才科学家们发明过很多算法，还起了让人一脸懵逼的算法名称比如：“随机森林”、“k近邻算法”、“生成对抗”、“支持向量机” 等等。

除了算法，我们还常听到模型的“参数”，它是指那些可调整的变量，用于控制模型的行为和性能。

最常见的一种参数是“权重参数”；

可以理解为是函数里的a、b、c

y = f(ax1,ax2,cx3….)

据说GPT4参数量达到了恐怖的1.8万亿。

三、模型评估

很多时候我们自以为对知识“消化理解”了，但真正要用的时候却经常出错，我们需要“考试打分”这一环节帮我们把把关，这不仅仅是为了向社会证明我们应该具备了某种能力，更重要的是可以指导我们如何进行查漏补缺。

在机器学习里，用“测试数据集”去考验“f”并给出一个评价分数的过程就是模型评估。

常见的术语有：

1）过拟合：训练高分但考试低分

模型在训练集上的表现好，但是在测试集上的表现不佳。

2）泛化：能够举一反三的能力

指训练好的模型对未见过的数据的适应能力。

3）精度：答对的题目数/题目总数

模型预测正确的样本数占总样本的比例。

所谓的“模型迭代”就是通过不断优化或新增训练数据集，选择更合适的“算法”或者“参数”去训练出新的“f”，以便能在测试数据集中拿到一个更高的分数。

四、模型部署

就像“考试打分”不是我们学习最终目的，模型评估的分数就算再高也要“走进社会”去部署运用才能发挥模型真正的价值。

学海无涯，机器学习同样如此，模型部署是下一轮机器学习的开始。对于已部署生产环境的模型需要建立监控机制，定期监测模型性能和预测结果，及时发现并解决模型退化或失效的问题，在使用者允许的情况下在生产环境所遇到的新情况也会是下一轮“收集数据”的样本，以便不断提高模型的准确性。

本文简单概述了机器学习的四个步骤。

机器学习和大脑学习很像；

“收集数据”是“学习准备”；
“训练模型”是“埋头苦学”;
“模型评估”是“反思复盘”；
“模型部署”是“大展拳脚”。

八字口诀：“收集训练评估部署”。

世界变化只会越来越快，我们一起学习AI知识，紧跟时代潮流~

相关资讯

掌握AI写作，从入门到精通的四个方法

在数字化时代，AI写作已经逐渐成为一种新的趋势。本文将深入探讨如何运用AI写作工具，从初识到精通，为您的创作带来无限可能。方法一、了解AI写作的优势和特点 AI写作具有高效、省时、自动化的特点，能够完成大量的写作任务。与传统写作相比，AI写作不受情绪、疲劳和时间限制的影响，可以在任何时间、任何状态下创作出高质量的文章。此外，AI写作工具还能通过自动化方式提高写作的准确性和一致性，减少人为错误的出现。方法二、选择合适的主题和风格在使用AI写作工具时，选择合适的主题和风格非常重要。我们需要明确写作的目的

AI写作

海鲸AI 2024-01-24

吴恩达：四个步骤，让大模型变得更好

本周，生成式 AI 的竞争达到了新的高潮。前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。

OpenAI 谷歌人工智能

机器之心 2024-05-20

构建 Python 机器学习模型的八个步骤

本文旨在系统地介绍构建机器学习模型的基本步骤，并通过一个具体的实战案例——股票价格预测，展示这些步骤的实际应用。通过遵循这些步骤，读者可以更好地理解和掌握机器学习模型构建的全过程。步骤一：定义问题

机器学习

星辰大海的精灵 2024-10-12

大模型「涌现」的四个关键

ChatGPT在全球掀起热潮以来，国内已有多家公司发布或将发布自己的大模型，这些公司中既有阿里巴巴、百度、京东、华为等互联网或科技大厂，也有以商汤为代表的AI公司，以及备受瞩目的初创企业（例如王慧文的光年之外…

ChatGPT 阿里巴巴百度华为商汤

深响 2023-04-22

【教程】如何开始入门深度学习？6个步骤教给你，无际Ai分享

深度学习是机器学习的一个子领域，它基于人工神经网络的概念，尤其是深层神经网络。深度学习模型由多个处理层组成，能够自动从大量数据中学习复杂的表示和特征。在深度学习中，每一层都会对输入数据进行变换和抽象，层与层之间通过权重（也就是连接强度）相连。这些权重在训练过程中通过反向传播算法和梯度下降方法不断调整，以最小化预测和实际结果之间的差异。深度学习的关键优势之一是它可以通过学习数据的内在结构来自动提取特征，而无需依赖于人工设计的特征提取器。这使得深度学习模型非常强大和灵活，但同时也需要大量的计算资源和大量的标记

深度学习机器学习

无际Ai 2023-11-17

近期资讯

格力电器获得发明专利授权：“一种空调室外机风机机架及空调器”

证券之星消息，根据天眼查APP数据显示格力电器（000651）新获得一项发明专利授权，专利名为“一种空调室外机风机机架及空调器”，专利申请号为CN202211610448.6，授权日为2024年12月27日。

证券之星 2024-12-28

农业银行获得发明专利授权：“一种交易调用方法、装置、设备及存储介质”

证券之星消息，根据天眼查APP数据显示农业银行（601288）新获得一项发明专利授权，专利名为“一种交易调用方法、装置、设备及存储介质”，专利申请号为CN202111576889.4，授权日为2024年12月27日。

证券之星 2024-12-28

豪迈科技获得发明专利授权：“一种耐刮擦的轮胎模具及加工方法”

证券之星消息，根据天眼查APP数据显示豪迈科技（002595）新获得一项发明专利授权，专利名为“一种耐刮擦的轮胎模具及加工方法”，专利申请号为CN202411098376.0，授权日为2024年12月27日。

证券之星 2024-12-28

如何有效查找丢失手机的实用技巧与方法总结

在这个数字化的时代，手机几乎成了我们生活中不可或缺的一部分。无论是工作、学习还是娱乐，手机都扮演着重要的角色。然而，手机丢失的情况时有发生，尤其是在忙碌的生活中，常常会把手机放在一些意想不到的地方。那么，如何有效地查找手机呢？接下来，我将分享一些实用的方法和技巧，帮助你快速找到丢失的手机。现代智能手机大多都配备了定位功能。

新报观察 2024-12-28

检查清单：应对复杂工作的关键

避免错误，简化复杂任务。

神译局 2024-12-28

岳阳兴长获得发明专利授权：“一种含PNP配体的乙烯选择性四聚用催化体系及其制备方法与应用”

证券之星消息，根据天眼查APP数据显示岳阳兴长（000819）新获得一项发明专利授权，专利名为“一种含PNP配体的乙烯选择性四聚用催化体系及其制备方法与应用”，专利申请号为CN202411234285.5，授权日为2024年12月27日。

证券之星 2024-12-28

2024年最大的意难平，是他们

总有一天，我们会成为别人的回忆。

新周刊 2024-12-28

如何解压压缩文件：常见格式与解压方法全解析

解压文件怎么解压？在日常使用电脑的过程中，我们经常会遇到一些压缩文件，比如说、、等格式的文件。压缩文件是将多个文件或文件夹打包成一个单一的文件，通过压缩算法减少文件体积，方便存储和传输。然而，压缩文件只有通过解压，才能恢复成原始的文件或文件夹，供我们使用。那么，解压文件到底怎么做呢？其实并不难，下面我就来详细说说如何解压文件。

新报观察 2024-12-28

如何登录路由器并进行网络设置，提升家庭网络安全和性能指南

在现代生活中，路由器几乎是家中不可或缺的设备。无论是看视频、玩游戏，还是远程办公，路由器都在幕后默默支持着我们的网络需求。而有时候，我们可能需要登录路由器进行一些设置，比如更改密码、调整网络设置等等。那么，路由器怎么登录呢？今天，我们就来聊聊这个话题。首先，确保你的设备已经连接到路由器的网络。

新报观察 2024-12-28

全闪存阵列｜mdadm 实操

可以通过 RAID 技术将多个 SSD 组成一个 All-flash Array，常见的方式是使用 Linux 软件 RAID（mdadm）来配置一个 RAID 阵列。

JayChou_ 2024-12-28

【入门科普】机器学习的四个步骤

推荐体验

相关资讯

掌握AI写作，从入门到精通的四个方法

吴恩达：四个步骤，让大模型变得更好

构建 Python 机器学习模型的八个步骤

大模型「涌现」的四个关键

【教程】如何开始入门深度学习？6个步骤教给你，无际Ai分享

近期资讯

格力电器获得发明专利授权：“一种空调室外机风机机架及空调器”

农业银行获得发明专利授权：“一种交易调用方法、装置、设备及存储介质”

豪迈科技获得发明专利授权：“一种耐刮擦的轮胎模具及加工方法”

如何有效查找丢失手机的实用技巧与方法总结

检查清单：应对复杂工作的关键

岳阳兴长获得发明专利授权：“一种含PNP配体的乙烯选择性四聚用催化体系及其制备方法与应用”

2024年最大的意难平，是他们

如何解压压缩文件：常见格式与解压方法全解析

如何登录路由器并进行网络设置，提升家庭网络安全和性能指南

全闪存阵列｜mdadm 实操

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响