过去几个月,所谓的“生成式人工智能”兴起,它是人工智能 (AI) 的一个子领域。像 ChatGPT 这样的工具已经成为最常用的词之一,并且正在成为许多工作中日常任务的基本工具(甚至学习编码)。
在过去的几个月里,“ DALL-E ”、“ChatGPT”和“生成式人工智能”等词已经渗透到社交、媒体、同事聊天以及与我们世界相关的一切事物中。从字面上看,每个人都在谈论这个。
但什么是生成式人工智能?为什么它与“普通”人工智能有什么不同?
在本文中,我们将阐明生成式人工智能背后的总体情况。因此,如果您参与过讨论但对此主题没有明确的想法,那么本文绝对适合您。
这是一种话语解释,旨在了解生成人工智能幕后的基础知识。所以,不用担心:您不会在这里找到任何代码。只是想法和描述,这些将以非常简短的方式呈现。我们将特别关注大型语言模型和图像生成模型。
以下是您将在这里学到的内容的摘要:
目录:
什么是生成式人工智能以及它与传统人工智能有何不同?
大型语言模型
图像生成
生成式人工智能是人工智能的一个子领域,涉及创建可以生成图像、文本、代码和音乐等新数据的算法。
生成式人工智能与“传统人工智能”的最大区别在于,前者根据训练数据生成新数据。此外,它还可以处理“传统人工智能”无法处理的数据类型。
让我们从技术上更详细地说一下:
传统人工智能背后的流程
因此,在传统人工智能中,我们训练机器学习模型来从数据中学习。然后,我们向它提供新的和未见过的数据,它可以进行区分、做出预测或分类。
关于所提供的示例,我们训练了一个机器学习模型来从图像中识别狗。然后,我们向经过训练的机器学习模型提供新的和未见过的狗的图片,它将能够对这些新图像是否代表狗进行分类。
生成人工智能背后的过程
相反,在生成人工智能的情况下,我们使用大量数据,使用来自各种来源的数据来训练机器学习模型。然后,由于提示(用户插入的自然语言查询),模型为我们提供了与其训练数据类似的输出。
举个例子,我们的模型已经接受了大量(文本)数据的训练,其中包括解释狗是什么。然后,如果用户查询模型询问狗是什么,模型将以自然语言描述狗是什么。
这是 ChatGPT 等工具执行的典型任务。
现在,让我们看看一些类型的生成人工智能模型。
让我们从大型语言模型 (LLM) 开始深入研究各种生成式 AI 子领域。法学硕士(来自维基百科)是:
一种计算机化语言模型,由具有许多参数(数千万到数十亿)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。
尽管“大语言模型”一词没有正式定义,但它通常指的是具有数百万甚至数十亿参数的深度学习模型,这些模型已经在大型语料库上“预训练”。
因此,LLM 是深度学习 (DL) 模型(又名神经网络),在大量文本上使用数百万个参数进行训练(这就是我们称之为“大型”的原因),可用于解决一些语言问题,例如:
因此,标准 ML 模型之间的另一个重要区别是,在这种情况下,我们可以训练可用于不同任务的 DL 算法。
让我更好地解释一下。
如果我们需要开发一个能够像我们之前看到的那样识别图像中的狗的系统,我们需要训练深度学习算法来解决分类任务,即:告诉我们新的、未见过的图像是否代表狗。而已。
相反,培训法学硕士可以帮助我们完成上面描述的所有任务。因此,这也证明了训练法学硕士(需要 PB 级数据!)所需的计算能力(和金钱!)。
众所周知,LLM 是通过提示来被用户查询的。现在,我们必须找出提示设计和提示工程之间的区别:
当然,当我们进行提示时,有时我们会混合使用两者。例如,我们可能需要将某个特定知识领域(例如力学)感兴趣的从英语翻译成意大利语。
例如,提示可能是:“将以下内容翻译成意大利语:
梁承受法向应力。
考虑到我们处于力学领域,所以‘法向应力’一定与之相关”。
因为,你知道:“正常”和“压力”可能会被模型误解(甚至被人类误解!)。
LLM 分为三种类型:
无论如何,请考虑实际分布的模型具有混合特征。或者,至少,他们可以执行不止一种类型的典型操作。
例如,如果我们想到 ChatGPT,我们可以明确地说:
图像生成已经存在相当长一段时间了,这与人们可能认为的相反。
不管怎样,最近它越来越受欢迎,特别是像“DALL-E”或“稳定扩散”这样的工具已经清除了它们的使用,使得这项技术可以为全世界的大众所使用。
我们可以说图像生成可以分为四类:
这是扩散模型背后的过程:
如果你一直保持注意力到现在,你的脑海中自然会出现一个问题:“好的,费德里科,很清楚了。” 但我遗漏了一些东西:当我使用“DALL-E”时,我插入一个提示并输出一个图像:我们还没有讨论过这一点,不是吗?”。
不,我们没有。
上面我们简单描述了最有前途(也是目前最常用)的图像生成模型,但缺少的部分是提示。
事实上,我们已经讨论了它们如何在高层次上工作。含义:我们对他们的学习过程如何进行进行了简短的解释。
但当这些模型与法学硕士结合起来时,它们的真正威力就会显现出来。事实上,这种耦合使我们能够结合即时工程的力量来向我们的模型询问输出。
换句话说:我们结合了使用自然语言作为模型输入的可能性,这些模型可以真正理解它并可以根据它生成图像。
这不是超能力吗?!!
总之,我们可以说生成式人工智能是人工智能的一个子领域,它可以生成类似于训练数据的新数据。
一方面,法学硕士可以根据训练数据生成文本,图像生成模型可以根据训练图像生成新图像,但生成式人工智能的真正力量,至少在图像方面,依赖于法学硕士的结合和图像生成模型。这使我们能够根据提示创建图像作为输入。
保持好奇,每天学习