当前位置:首页|资讯|人工智能|编程|深度学习

为初学者简要介绍生成式人工智能

作者:AITalker324发布时间:2023-06-29

原标题:为初学者简要介绍生成式人工智能

过去几个月,所谓的“生成式人工智能”兴起,它是人工智能 (AI) 的一个子领域。像 ChatGPT 这样的工具已经成为最常用的词之一,并且正在成为许多工作中日常任务的基本工具(甚至学习编码)。

在过去的几个月里,“ DALL-E ”、“ChatGPT”和“生成式人工智能”等词已经渗透到社交、媒体、同事聊天以及与我们世界相关的一切事物中。从字面上看,每个人都在谈论这个。

但什么是生成式人工智能?为什么它与“普通”人工智能有什么不同?

在本文中,我们将阐明生成式人工智能背后的总体情况。因此,如果您参与过讨论但对此主题没有明确的想法,那么本文绝对适合您。

这是一种话语解释,旨在了解生成人工智能幕后的基础知识。所以,不用担心:您不会在这里找到任何代码。只是想法和描述,这些将以非常简短的方式呈现。我们将特别关注大型语言模型和图像生成模型。

以下是您将在这里学到的内容的摘要:

目录:

什么是生成式人工智能以及它与传统人工智能有何不同?

大型语言模型

图像生成

什么是生成式人工智能?它与传统人工智能有何不同?

生成式人工智能是人工智能的一个子领域,涉及创建可以生成图像、文本、代码和音乐等新数据的算法。

生成式人工智能与“传统人工智能”的最大区别在于,前者根据训练数据生成新数据。此外,它还可以处理“传统人工智能”无法处理的数据类型。

让我们从技术上更详细地说一下:

  • “传统人工智能”可以被定义为歧视性人工智能。事实上,在这种情况下,我们训练机器学习模型,以便它们可以对新的、看不见的数据进行预测或分类。这些机器学习模型只能处理数字,有时也处理文本(例如,在自然语言处理的情况下)。
  • 在生成式人工智能中,我们训练一个机器学习模型,它会创建一个与其训练数据相似的输出。这些类型的机器学习模型可以处理不同类型的数据,例如数字、文本、图像和音频。

传统人工智能背后的流程

因此,在传统人工智能中,我们训练机器学习模型来从数据中学习。然后,我们向它提供新的和未见过的数据,它可以进行区分、做出预测或分类。

关于所提供的示例,我们训练了一个机器学习模型来从图像中识别狗。然后,我们向经过训练的机器学习模型提供新的和未见过的狗的图片,它将能够对这些新图像是否代表狗进行分类。

生成人工智能背后的过程

相反,在生成人工智能的情况下,我们使用大量数据,使用来自各种来源的数据来训练机器学习模型。然后,由于提示(用户插入的自然语言查询),模型为我们提供了与其训练数据类似的输出。

举个例子,我们的模型已经接受了大量(文本)数据的训练,其中包括解释狗是什么。然后,如果用户查询模型询问狗是什么,模型将以自然语言描述狗是什么。

这是 ChatGPT 等工具执行的典型任务。

现在,让我们看看一些类型的生成人工智能模型。

大型语言模型

让我们从大型语言模型 (LLM) 开始深入研究各种生成式 AI 子领域。法学硕士(来自维基百科)是:

一种计算机化语言模型,由具有许多参数(数千万到数十亿)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。

尽管“大语言模型”一词没有正式定义,但它通常指的是具有数百万甚至数十亿参数的深度学习模型,这些模型已经在大型语料库上“预训练”。

因此,LLM 是深度学习 (DL) 模型(又名神经网络),在大量文本上使用数百万个参数进行训练(这就是我们称之为“大型”的原因),可用于解决一些语言问题,例如:

  • 文本分类
  • 问答
  • 文档摘要
  • 文本生成

因此,标准 ML 模型之间的另一个重要区别是,在这种情况下,我们可以训练可用于不同任务的 DL 算法。

让我更好地解释一下。

如果我们需要开发一个能够像我们之前看到的那样识别图像中的狗的系统,我们需要训练深度学习算法来解决分类任务,即:告诉我们新的、未见过的图像是否代表狗。而已。

相反,培训法学硕士可以帮助我们完成上面描述的所有任务。因此,这也证明了训练法学硕士(需要 PB 级数据!)所需的计算能力(和金钱!)。

众所周知,LLM 是通过提示来被用户查询的。现在,我们必须找出提示设计和提示工程之间的区别:

  • 及时设计。这是创建特别适合系统正在执行的特定任务的提示的艺术。例如,如果我们想要求法学硕士将文本从英语翻译成意大利语,我们必须用英语编写一个特定的提示,要求模型将我们粘贴的文本翻译成意大利语。
  • 及时工程。这是创建提示以提高法学硕士表现的过程。这意味着使用我们的领域知识向提示添加详细信息,例如特定关键字、特定上下文和示例,以及必要时所需的输出。

当然,当我们进行提示时,有时我们会混合使用两者。例如,我们可能需要将某个特定知识领域(例如力学)感兴趣的从英语翻译成意大利语。

例如,提示可能是:“将以下内容翻译成意大利语:

梁承受法向应力。

考虑到我们处于力学领域,所以‘法向应力’一定与之相关”。

因为,你知道:“正常”和“压力”可能会被模型误解(甚至被人类误解!)。

LLM 的三种类型

LLM 分为三种类型:

  • 通用语言模型。它们能够根据训练数据中的语言来预测单词(或短语)。例如,考虑一下您的电子邮件自动完成功能来了解这种类型。
  • 指令调整模型。此类模型经过训练可以预测对输入中给出的指令的响应。总结给定的文本就是一个典型的例子。
  • 对话调整模型。这些被训练为使用随后的响应与用户进行对话。人工智能驱动的聊天机器人就是一个典型的例子。

无论如何,请考虑实际分布的模型具有混合特征。或者,至少,他们可以执行不止一种类型的典型操作。

例如,如果我们想到 ChatGPT,我们可以明确地说:

  • 在给定输入的情况下,可以预测对指令的响应。事实上,例如,它可以总结文本,对我们通过提示提供的某个论点给出见解,等等……因此,它具有指令调整模型等功能。
  • 接受过与用户对话的培训。这非常清楚,因为它会根据后续提示进行操作,直到我们对其答案感到满意为止。因此,它还具有对话调整模型等功能。

图像生成

图像生成已经存在相当长一段时间了,这与人们可能认为的相反。

不管怎样,最近它越来越受欢迎,特别是像“DALL-E”或“稳定扩散”这样的工具已经清除了它们的使用,使得这项技术可以为全世界的大众所使用。

我们可以说图像生成可以分为四类:

  • 变分自动编码器(VAE)。变分自动编码器是“概率生成模型,仅需要神经网络作为其整体结构的一部分”。用操作的话来说,它们将图像编码为压缩尺寸并将其解码为原始尺寸。在此过程中,他们了解数据的分布。
  • 生成对抗模型(GAN)。这些通常是最知名的,至少是在生成人工智能领域引起共鸣的一个词。GAN 是“一类 ML 框架,其中两个神经网络相互对抗,一个的收益就是另一个的损失”。这意味着一个神经网络创建图像,而另一个神经网络预测图像是真还是假。
  • 自回归模型。在统计学中,自回归模型是随机过程的表示。在生成图像的背景下,此类模型通过将图像视为像素序列来生成图像。
  • 扩散模型。扩散模型受到热力学的启发,绝对是图像生成子领域中最有前途和最有趣的模型类型。

这是扩散模型背后的过程:

  • 正向分配过程。我们有一个初始的迭代过程,其中图像的结构在数据分布中被“破坏”。简单来说,就像我们迭代地向图像添加噪声,直到所有像素都变成纯噪声并且图像无法识别(人眼)。
  • 逆扩散过程。然后,有一个反向扩散过程,这就是实际的学习过程:恢复数据的结构。这就像我们的模型学习如何对像素进行“去噪”以重新创建图像。

连接一切的力量

如果你一直保持注意力到现在,你的脑海中自然会出现一个问题:“好的,费德里科,很清楚了。” 但我遗漏了一些东西:当我使用“DALL-E”时,我插入一个提示并输出一个图像:我们还没有讨论过这一点,不是吗?”。

不,我们没有。

上面我们简单描述了最有前途(也是目前最常用)的图像生成模型,但缺少的部分是提示。

事实上,我们已经讨论了它们如何在高层次上工作。含义:我们对他们的学习过程如何进行进行了简短的解释。

但当这些模型与法学硕士结合起来时,它们的真正威力就会显现出来。事实上,这种耦合使我们能够结合即时工程的力量来向我们的模型询问输出。

换句话说:我们结合了使用自然语言作为模型输入的可能性,这些模型可以真正理解它并可以根据它生成图像。

这不是超能力吗?!!

结论

总之,我们可以说生成式人工智能是人工智能的一个子领域,它可以生成类似于训练数据的新数据。

一方面,法学硕士可以根据训练数据生成文本,图像生成模型可以根据训练图像生成新图像,但生成式人工智能的真正力量,至少在图像方面,依赖于法学硕士的结合和图像生成模型。这使我们能够根据提示创建图像作为输入。

保持好奇,每天学习


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1