「番外篇」AI 领域相关的名词解释，知其然知其所以然

作者：AI探索基地发布时间：2023-04-06

GPT

GPT：Generative Pre-trained Transformer（生成式预训练转换模型），Generative 生成式是众多人工智能模型中的一种，Pre-trained 预训练，指不为一个特定的目标训练，而是预先训练一个通用模型，也就是先把大量的数据发送给机器，让其进行深度学习（GPT-3 有 1750 亿个参数），如果我们有个特定的目标，可以在这个通用模型的基础上进行特定的训练，对其微调（Fine-Tuning）。Transformer 是一种深度学习模型，可用于处理数据间的转换，比如输入了 apple，通过编码（encoder）给机器，机器处理后再解码（decoder）输出，这时的结果就可以是法语 pomme（都是苹果的意思）。

ChatGPT

ChatGPT：OpenAI 这个公司基于 GPT 通用大模型推出的一个聊天式应用。为了助于理解，我们可以简单地打个比方，GPT 像是电脑里操作系统，而 ChatGPT 就像是浏览器（已有插件市场），因为 GPT 这台电脑对外开放（现实是 GPT 对外提供 API），所以我们也可以基于它开发各种应用。这样的关系很像是微软，拥有 Windows 操作系统，系统有自带了个浏览器（以前的 IE，现在 Edge），很多开发者在 Windows 系统上开发软件。然而不同的点在于，GPT 更加封闭，目前它只开放它想开放的，开发者可进行定制开发的权限相对受限。目前几个大公司都在训练自己的大模型（操作系统），从市场竞争的角度看，这也是必然。

在 GPT-4 发布时，有人称其为 iPhone 时刻，因为 iPhone 重新定义了手机，拉开了移动互联网的序幕。也有人称其为个人计算机出现的时刻，它让计算机不再是科研机构的工具，而是之后人人都能用得上的电脑。这些类比只是为了说明，一个 AI 大爆发的时候已经来临。

Midjourney

Midjourney：它是一个文字生成图像的模型，使用方式是在 Discord 上进入其频道，然后向机器人发送想要生成图片的文字描述。

Stable Diffusion

Stable Diffusion：它是一个开源的文字生成图像模型，正因为开源，很多公司或个人基于它开发出了一系列的产品或插件。目前使用最多的就是 Stable Diffusion WebUI，它让普通用户也可以在电脑上安装 Stable Diffusion，然后启动可视化的界面，进行文生图操作，甚至训练自己的模型。

再打个比方，Midjourney 就像是没有 App store 的 iOS（iPhone 的操作系统），只能使用，不可开发。而 Stable Diffusion 就像是 Android（安卓操作系统），因其开源，所以发展迅速。

自然语言处理

（Natural Language Processing，简称 NLP）：是 AI 领域的一个子领域，旨在让计算机能够理解、处理、生成自然语言。

大语言模型（Large Language Model，简称 LLM）：是自然语言处理领域中的一种技术。LLM 可以基于深度学习算法构建的模型，通过学习大量的文本数据，可以对文本数据进行学习和预测。“大”指的是参数多、语料多。
特定语言模型（Specific Language Model）：是一种针对特定语种和领域的自然语言处理模型。它在大语言模型的基础上，使用特定领域的文本数据进行训练和优化，以提高模型在该领域中的预测和生成能力。
意图检测（Intention Detection）：是 NLP 领域的一种技术，旨在识别和理解用户在一段文本中的意图。在应用中，意图识别通常与语音识别和语音合成等技术相结合，以实现智能对话和交互。
实体检测（Entity Detection）：同样是 NLP 领域的一种技术，旨在从文本中识别出具有特定意义的实体，例如人名、地名、组织机构、日期、数字等。

LLaMA

LLaMA (Large Language Model Meta AI) 是 Meta 于2月25日首次推出的大型语言模型，相当于超快超小型GPT-3，参数量只有后者的10%，只需要单张 GPU 就能运行。与 OpenAI 的 GPT-3 相比，Meta 在一开始就将 LLaMA 定位成一个“开源的研究工具”，该模型所使用的是各类公开可用的数据集（例如 Common Crawl、维基百科以及 C4）。LLaMA 的模型架构基于 Transformer 有三项改动：前置 normalization、SwiGLU 激活函数和旋转位置编码。得益于模块化特性，用户可以通过模块组合的方式构成各种模型，也可以通过复用已有的模块进行少量修改来实现新的模型。

PaLM

Pathways 是 Google Brain 团队开发的大型语言模型，是一个密集激活的 Transformer 语言模型，拥有 5400 亿个参数，能够在多个 TPU Pods 上进行高效的训练。PaLM 在各种自然语言任务中使用 few-shot 学习取得了显著的性能，这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。

Pathways 的目标是通过将自然语言处理（NLP）和计算机视觉（CV）技术相结合，使计算机能够理解和处理人类语言和图像。Pathways 的设计旨在解决现有系统的许多弱点，并综合它们的优点。

通用人工智能（Artificial General Intelligence，AGI）

与目前大多数人工智能系统只能解决特定领域的问题不同，AGI 可以具有类似人类的智能，能够在多个领域中学习和应用知识，处理和理解不同类型的信息，并具备自我学习和自我改进的能力。AGI 被认为是人工智能领域中最具挑战性和最具科学意义的目标之一。

图灵测试（Turing Test）

一种测试人工智能是否具有智能的标准之一，由英国计算机科学家图灵在 1950 年提出。