一、AGI全景梳理人工智能领域正在如火如荼地发展,随着诸如ChatGPT、Claude、Gemini、Sora和Grok等平台的不断涌现,AI技术和模型持续演进,引发人们对通用人工智能(AGI)的浓厚兴趣。
在这一备受关注的话题中,人们常常将GPT和AGI的概念混淆在一起。
有人称赞GPT是新的工业革命,有人则认为当前的人工智能技术已进入AGI时代或即将迈入。
尽管GPT系列模型凭借出色的自然语言生成能力和广泛的应用声名鹊起,但我们不能忽视的是,GPT模型虽擅长处理大量文本数据和执行各种语言任务,但并非等同于通用人工智能。
GPT展现的智能只是人工智能技术中的一小部分,其重点在语言理解与生成,而AGI则追求跨领域、多任务的全面深厚智能。
因此,理性地认识GPT与AGI之间的区别至关重要。
本文旨在探讨当前最新人工智能技术的成就,梳理和分析通用人工智能的发展脉络,尽管GPT备受瞩目,却并非AI通向AGI的全部旅程。
当我们探索人工智能的发展和前景时,总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。
这些名词包括人工通用智能(AGI)、窄人工智能(ANI)、自然语言处理(NLP)、计算机视觉(CV)、大语言模型(LLM)、AIGC(生成式人工智能)、GPT(生成式预训练Transformer模型)、BERT(基于Transformer的双向编码)、Diffusion Models(扩散模型)、GANs(生成对抗网络)、Transformer、RNNs(循环神经网络)、CNNs(卷积神经网络)、ANN(人工神经网络)、Fine-tuning(微调)和PLHF(人类反馈的强化学习)等。
本小结将通过概念和实现两个层面梳理他们之间的关系。
1. 概念层
AI是人工智能(Artificial Intelligence)的简称,该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡(John McCarthy)在1956年为研讨会写提案时创造的,后来被广泛接受为描述一种由人类创造出来的技术,它模仿并扩展了人类智能的各个方面,包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标,并无实际进展。
为进一步实现AI,学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。
除了AGI和ANI两个AI目标概念以外,根据人类的感官需求,AI的具体应用则主要体现在语言和视觉处理的两大领域,即:NLP和CV。
当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。
LLM:是指大规模型语言模型(Large Language Model)。随着ChatGPT的成功,而广为人知。是一种利用深度学习技术训练的人工智能系统,旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文,从而能够生成连贯、逼真的文本,回答问题,总结信息,翻译语言,甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量,例如:ChatGPT-4训练参数量大概是1750亿个参数,而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念,这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时,LLM是特指大规模语言模型,即便是大规模参数的ANI模型也不能称为LLM,例如:华为盘古气象大模型并不是LLM,其只是采用Transformer架构的ANI模型。
最后我们要讨论一个比较特殊的概念,即:生成式AI(Artificial Intelligence Generated Content,简称AIGC)。该概念并不是AGI概念的原生词汇,而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成(NLG)、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义,AIGC更像是把NLP、CV等重新包装成产业应用,制造互联网热点的过程。
以上重点讲解了关于人工智能最近比较热点的概念,但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持,只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持,有实际实现意义的内容。
2. 实现层
为了便于理解,我将模型、架构和算法归统称为实现层,因此首先出场的是当下最火的GPT模型。
1)GPT—生成式预训练Transformer模型(Generative Pre-trained Transformer)
这是一种LLM也是NLP,由OpenAI开发。它基于Transformer架构,主要用于处理和生成自然语言,因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分,通过大量文本数据的预训练,学会了语言的结构、语法、词汇及其上下文之间的关系,使其能够执行各种语言任务,如文本生成、翻译、问答和摘要等。
其工作原理主要由预训练和微调构成。
4)GANs—生成对抗网络(Generative Adversarial Networks)