当前位置:首页|资讯|AGI|人工智能|ChatGPT|Claude|Sora

GPT(LLM)不是AGI的全部

作者:人人都是产品经理发布时间:2024-03-27

原标题:GPT(LLM)不是AGI的全部

人工智能领域正在如火如荼地发展,随着诸如ChatGPT、Claude、Gemini、Sora和Grok等平台的不断涌现,AI技术和模型持续演进,引发人们对通用人工智能(AGI)的浓厚兴趣。

在这一备受关注的话题中,人们常常将GPT和AGI的概念混淆在一起。

有人称赞GPT是新的工业革命,有人则认为当前的人工智能技术已进入AGI时代或即将迈入。

尽管GPT系列模型凭借出色的自然语言生成能力和广泛的应用声名鹊起,但我们不能忽视的是,GPT模型虽擅长处理大量文本数据和执行各种语言任务,但并非等同于通用人工智能。

GPT展现的智能只是人工智能技术中的一小部分,其重点在语言理解与生成,而AGI则追求跨领域、多任务的全面深厚智能。

因此,理性地认识GPT与AGI之间的区别至关重要。

本文旨在探讨当前最新人工智能技术的成就,梳理和分析通用人工智能的发展脉络,尽管GPT备受瞩目,却并非AI通向AGI的全部旅程。

一、AGI全景梳理

当我们探索人工智能的发展和前景时,总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。

这些名词包括人工通用智能(AGI)、窄人工智能(ANI)、自然语言处理(NLP)、计算机视觉(CV)、大语言模型(LLM)、AIGC(生成式人工智能)、GPT(生成式预训练Transformer模型)、BERT(基于Transformer的双向编码)、Diffusion Models(扩散模型)、GANs(生成对抗网络)、Transformer、RNNs(循环神经网络)、CNNs(卷积神经网络)、ANN(人工神经网络)、Fine-tuning(微调)和PLHF(人类反馈的强化学习)等。

本小结将通过概念和实现两个层面梳理他们之间的关系。

1. 概念层

AI是人工智能(Artificial Intelligence)的简称,该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡(John McCarthy)在1956年为研讨会写提案时创造的,后来被广泛接受为描述一种由人类创造出来的技术,它模仿并扩展了人类智能的各个方面,包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标,并无实际进展。

为进一步实现AI,学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。

  • AGI:是指通用人工智能(Artificial General Intelligence),它是一种智能的形式,能够理解、学习和应用知识跨越不同的领域和任务,与人类智能类似。与ANI不同,后者主要专注于特定领域或任务(如图像识别、语言翻译或玩特定的游戏),AGI可以在没有专门为每个新任务编程的情况下,自主地执行任何智能生物能够执行的学习或解决问题的任务。可以说AGI是模型泛化形式。
  • ANI:是指窄人工智能(Artificial Narrow Intelligence),也被称为专用人工智能,指的是专门设计来执行一个或几个特定任务的智能系统或软件。这类智能系统表现出在其专门领域内的高效率和强大能力,但它们的能力是局限的,只能在其被设计和训练的特定任务范围内工作。得益于AI三巨头(Yann LeCun、Geoffrey Hinton & Yoshua Bengio)的贡献,在过去10年,ANI在语言处理、图像识别方面取得突破性进展,并广泛在各行业中应用和推广。但在AGI派来看,ANI并不能算真正的AI,因为ANI缺乏像人一样对信息广泛和通用的处理能力。人工智能到底是朝向知识专精的专家系统发展,还是知识覆盖更广泛、通用的百科全书方向发展?有待验证。但AGI作为新兴事物确实已得到足够的认可和关注。

除了AGI和ANI两个AI目标概念以外,根据人类的感官需求,AI的具体应用则主要体现在语言和视觉处理的两大领域,即:NLP和CV。

  • NLP:是指自然语言处理(Natural Language Processing),是人工智能(AI)和计算机科学领域的一个分支,专注于使计算机能够理解、解释和生成人类的自然语言。NLP结合了计算机科学、人工智能和语言学的技术,旨在桥接人类语言和计算机之间的差距。包括但不限于:文本分析,语言翻译,对话系统,自动文摘,命名实体识别(NER),自然语言理解(NLU)等。
  • CV:是指计算机视觉(Computer Vision),目标是使计算机能够“看”和理解图像和视频中的内容,就像NLP使计算机能够理解和生成人类语言一样。计算机视觉涵盖了从基本的图像处理到复杂的图像理解的各个方面,包括但不限于:图像分类,对象检测,图像分割,图像生成,图像恢复,动作识别等。

当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。

LLM:是指大规模型语言模型(Large Language Model)。随着ChatGPT的成功,而广为人知。是一种利用深度学习技术训练的人工智能系统,旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文,从而能够生成连贯、逼真的文本,回答问题,总结信息,翻译语言,甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量,例如:ChatGPT-4训练参数量大概是1750亿个参数,而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念,这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时,LLM是特指大规模语言模型,即便是大规模参数的ANI模型也不能称为LLM,例如:华为盘古气象大模型并不是LLM,其只是采用Transformer架构的ANI模型。

最后我们要讨论一个比较特殊的概念,即:生成式AI(Artificial Intelligence Generated Content,简称AIGC)。该概念并不是AGI概念的原生词汇,而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成(NLG)、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义,AIGC更像是把NLP、CV等重新包装成产业应用,制造互联网热点的过程。

以上重点讲解了关于人工智能最近比较热点的概念,但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持,只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持,有实际实现意义的内容。

2. 实现层

为了便于理解,我将模型、架构和算法归统称为实现层,因此首先出场的是当下最火的GPT模型。

1)GPT—生成式预训练Transformer模型(Generative Pre-trained Transformer)

这是一种LLM也是NLP,由OpenAI开发。它基于Transformer架构,主要用于处理和生成自然语言,因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分,通过大量文本数据的预训练,学会了语言的结构、语法、词汇及其上下文之间的关系,使其能够执行各种语言任务,如文本生成、翻译、问答和摘要等。

其工作原理主要由预训练和微调构成。

4)GANs—生成对抗网络(Generative Adversarial Networks)

            二、GPT的局限性 三、我们离AGI还有多远? 1. AGI的评价方法
              2. 技术挑战 3. 理论和方法论上的挑战 4. 伦理和安全挑战 5. 能源挑战 四、最后 参考文献

                Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1