GPT（LLM）不是AGI的全部

作者：人人都是产品经理发布时间：2024-03-27

人工智能领域正在如火如荼地发展，随着诸如ChatGPT、Claude、Gemini、Sora和Grok等平台的不断涌现，AI技术和模型持续演进，引发人们对通用人工智能（AGI）的浓厚兴趣。

在这一备受关注的话题中，人们常常将GPT和AGI的概念混淆在一起。

有人称赞GPT是新的工业革命，有人则认为当前的人工智能技术已进入AGI时代或即将迈入。

尽管GPT系列模型凭借出色的自然语言生成能力和广泛的应用声名鹊起，但我们不能忽视的是，GPT模型虽擅长处理大量文本数据和执行各种语言任务，但并非等同于通用人工智能。

GPT展现的智能只是人工智能技术中的一小部分，其重点在语言理解与生成，而AGI则追求跨领域、多任务的全面深厚智能。

因此，理性地认识GPT与AGI之间的区别至关重要。

本文旨在探讨当前最新人工智能技术的成就，梳理和分析通用人工智能的发展脉络，尽管GPT备受瞩目，却并非AI通向AGI的全部旅程。

一、AGI全景梳理

当我们探索人工智能的发展和前景时，总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。

这些名词包括人工通用智能（AGI）、窄人工智能（ANI）、自然语言处理（NLP）、计算机视觉（CV）、大语言模型（LLM）、AIGC（生成式人工智能）、GPT（生成式预训练Transformer模型）、BERT（基于Transformer的双向编码）、Diffusion Models（扩散模型）、GANs（生成对抗网络）、Transformer、RNNs（循环神经网络）、CNNs（卷积神经网络）、ANN（人工神经网络）、Fine-tuning（微调）和PLHF（人类反馈的强化学习）等。

本小结将通过概念和实现两个层面梳理他们之间的关系。

1. 概念层

AI是人工智能（Artificial Intelligence）的简称，该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡（John McCarthy）在1956年为研讨会写提案时创造的，后来被广泛接受为描述一种由人类创造出来的技术，它模仿并扩展了人类智能的各个方面，包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标，并无实际进展。

为进一步实现AI，学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。

AGI：是指通用人工智能（Artificial General Intelligence），它是一种智能的形式，能够理解、学习和应用知识跨越不同的领域和任务，与人类智能类似。与ANI不同，后者主要专注于特定领域或任务（如图像识别、语言翻译或玩特定的游戏），AGI可以在没有专门为每个新任务编程的情况下，自主地执行任何智能生物能够执行的学习或解决问题的任务。可以说AGI是模型泛化形式。
ANI：是指窄人工智能（Artificial Narrow Intelligence），也被称为专用人工智能，指的是专门设计来执行一个或几个特定任务的智能系统或软件。这类智能系统表现出在其专门领域内的高效率和强大能力，但它们的能力是局限的，只能在其被设计和训练的特定任务范围内工作。得益于AI三巨头（Yann LeCun、Geoffrey Hinton & Yoshua Bengio）的贡献，在过去10年，ANI在语言处理、图像识别方面取得突破性进展，并广泛在各行业中应用和推广。但在AGI派来看，ANI并不能算真正的AI，因为ANI缺乏像人一样对信息广泛和通用的处理能力。人工智能到底是朝向知识专精的专家系统发展，还是知识覆盖更广泛、通用的百科全书方向发展？有待验证。但AGI作为新兴事物确实已得到足够的认可和关注。

除了AGI和ANI两个AI目标概念以外，根据人类的感官需求，AI的具体应用则主要体现在语言和视觉处理的两大领域，即：NLP和CV。

NLP：是指自然语言处理（Natural Language Processing），是人工智能（AI）和计算机科学领域的一个分支，专注于使计算机能够理解、解释和生成人类的自然语言。NLP结合了计算机科学、人工智能和语言学的技术，旨在桥接人类语言和计算机之间的差距。包括但不限于：文本分析，语言翻译，对话系统，自动文摘，命名实体识别（NER），自然语言理解（NLU）等。
CV：是指计算机视觉（Computer Vision），目标是使计算机能够“看”和理解图像和视频中的内容，就像NLP使计算机能够理解和生成人类语言一样。计算机视觉涵盖了从基本的图像处理到复杂的图像理解的各个方面，包括但不限于：图像分类，对象检测，图像分割，图像生成，图像恢复，动作识别等。

当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。

LLM：是指大规模型语言模型（Large Language Model）。随着ChatGPT的成功，而广为人知。是一种利用深度学习技术训练的人工智能系统，旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文，从而能够生成连贯、逼真的文本，回答问题，总结信息，翻译语言，甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量，例如：ChatGPT-4训练参数量大概是1750亿个参数，而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念，这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时，LLM是特指大规模语言模型，即便是大规模参数的ANI模型也不能称为LLM，例如：华为盘古气象大模型并不是LLM，其只是采用Transformer架构的ANI模型。

最后我们要讨论一个比较特殊的概念，即：生成式AI（Artificial Intelligence Generated Content，简称AIGC）。该概念并不是AGI概念的原生词汇，而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成（NLG）、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义，AIGC更像是把NLP、CV等重新包装成产业应用，制造互联网热点的过程。

以上重点讲解了关于人工智能最近比较热点的概念，但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持，只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持，有实际实现意义的内容。

2. 实现层

为了便于理解，我将模型、架构和算法归统称为实现层，因此首先出场的是当下最火的GPT模型。

1）GPT—生成式预训练Transformer模型（Generative Pre-trained Transformer）

这是一种LLM也是NLP，由OpenAI开发。它基于Transformer架构，主要用于处理和生成自然语言，因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分，通过大量文本数据的预训练，学会了语言的结构、语法、词汇及其上下文之间的关系，使其能够执行各种语言任务，如文本生成、翻译、问答和摘要等。

其工作原理主要由预训练和微调构成。

4）GANs—生成对抗网络（Generative Adversarial Networks）

二、GPT的局限性三、我们离AGI还有多远? 1. AGI的评价方法

2. 技术挑战 3. 理论和方法论上的挑战 4. 伦理和安全挑战 5. 能源挑战四、最后参考文献

GPT（LLM）不是AGI的全部

推荐体验

相关资讯

GPT不是唯一选择：Hugging Face五款优秀的开源LLM

GPT-4只是AGI的火花？LLM终将退场，世界模型才是未来

OpenAI CEO:GPT-4还不是AGI，替代不了打工人

AGI｜玩转提示工程，优化LLM的实践指南！

GPT-4不是世界模型，LeCun双手赞同！ACL力证LLM永远无法模拟世界

近期资讯

全球跑得最快的高铁！CR450动车组样车发布

海关总署：促进海关业务数据互联互通，深入推进长三角云擎站点建设

上海财经大学成立计算机与人工智能学院，“80后”院长什么来头？

深圳：竞逐“低空第一城”

一加Ace 5系列双品齐发，开启游戏体验天花板

日喀则和长白山40米射电望远镜启用

Intel三款酷睿Ultra 200H处理器性能曝光：最高16核、5.4GHz

这一家族又添利器 2025年“探索三号”将进行常规化科考

未来智能COO王超：人工智能新浪潮下，AI硬件如何破局

小米SU7城市销量榜：杭州人买的最多上海、深圳包揽亚季军

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响