当前位置:首页|资讯|ChatGPT|AGI|融资

九合报告:不朽的计算——比特连接世界,词元生成未来

作者:极客公园发布时间:2024-06-30

计算,作为一种表达与理解世界的方式,它引起的颠覆正悄然发生。2022年,ChatGPT抓住了全世界的想象力,让人们意识到AI的重要性和能力上限。在此之前很长一段时间里,AI 的相关研究和应用主要集中在解决特定问题和任务上,而AGI的实现一直被认为是一个更为复杂和遥远的目标。2023年,生成式AI应运而生, AIGC时代大幕徐徐开启。

作为一家早期投资机构,九合长期在一线关注“计算演进”带来的结构性变革。我们既保持着与最前沿创业者的高频交流,也不曾懈怠以宏观视角去思考脉络,推演未来。站在今天,我们观察到:计算正从一种辅助性质的工具,逐步演进为从神经网络算法开始涌现的一种“类似人类”的工作方式。从工具,类人到未来可能的超越,计算正涌现出无限的生命力和扩展性,其扩展的边界正在迅速蔓延,直至计算的范畴超出个体的生命边界与生命经验,直至计算的维度超出单一劳动力的知识密度和知识体量,直至计算数字化一切,不朽的计算成为现实。

我们认为,AI将成为下一代计算平台,智能体本身将不止于提升生产效率,而是有可能作为新兴超级生产力真正参与到经济生产与社会生活中,而我们正处于平台转变的初期阶段,这将深刻影响未来投资与创业机会。

一、计算不朽:对世界理解与表达的迭代

在人类历史的大部分时间里,我们都有点像LLM,基于经验,通过匹配我们头脑中的知识和思维模型来解决问题。

几个世纪前出现了更系统的形式化,数学符号和“数学语言”的发展为数学提供了一种系统的表达方式,并使代数、微积分以及最终的现代数学科学成为可能。从数学科学的所有成功中,我们开始相信,一定有公式来预测一切,期望总结出一些规律,然后通过规律推理演绎出新的规律。从工业革命开始,理性主义更是成为主流,我们一直习惯于做工程,从“看到齿轮是如何啮合的”从而“理解”事物是如何工作,逐步提高生产力。

不过,上世纪30年代,哥德尔和图灵时代对纯逻辑系统的能力已经有了明确界定,提出了不完备定理,说明纯逻辑系统是不完美的,一定会推导出相互矛盾的结论。即使是数学也无法最终证明一切,我们总会面临一些无法证明的事实存在的情况。

之后,我们步入计算时代。过往的历史中,我们倾向于把计算视作一种工具(Tool for human),这个工具以尽可能低的成本,提供了远低于人类智慧的辅助功能,带动人类在各个领域实现自己的想法。自1950年代以来,“逻辑驱动”的人工智能曾主宰很长一段时间。彼时,人们相信依据逻辑的程序是简单的,他们认为人工智能不要急着去“学习”——在我们理解了如何表示事物之后,学习就很简单了。为了抵达智能,科学家们为每个不同问题编写不同程序,纷纷变成“劳动密集型”工种。但人们低估了现实世界的复杂度,问题越大,程序越复杂,越难以细化推导,纯粹基于逻辑是不足以应对的,这条路进展缓慢。

随着AI计算不断发展,不同的路径开始展现。在AI发展的早期,最开始基于小规模专家知识逐步发展为基于机器学习的推理。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础。2013年,自然语言处理模型 Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。由此开始了今天意义上的大语言模型的突破式进展。

深度学习作为跨学科产物,摆脱了数理逻辑的束缚,吸纳了生物学思想,不追求解释和逻辑,以神经网络开启了“暴力美学”大门——它认为智能的本质是在神经网络中学习连接的强度,不着急去“推理”,在学习完成后,推理自然就来了,计算机从数据中学习、进化,让人工智能变成“数据密集型”学科,最终从应用表现中明显胜出,主导当今人工智能的发展。

“计算”开始成为一种更新、更强大的方法,我们用数十亿页的网页来训练LLM,这样它们就能生成典型的人类所写的文本,海量数据的“计算”开始逐步展现了不可还原性,我们很难用传统简单的人类叙事,或者说数学叙事来解释或预测一个系统会做什么。经过深度学习训练的计算机,不再被动按照指令运转,而是像自然界的生命由35亿年前开始进化那样,自主地从经验中学习,并改写着这个世界的角角落落。

人类的生活经验通过代际经验、基因筛选的机制跨越时间传递,而模型可以跨越时间、空间、学科,用海量的计算形成智能,带给我们跨越学科壁垒、生命尺度、地理阻隔的全新思考。将整个世界置于不确定性之上,以进化涌现来考虑的思维,是计算 AI时代最根本的世界观。

二、超级模型:累积计算的高维形态 1.超级模型:凝结计算智慧

模型是能够沉淀智慧的计算形态。模型作为计算的呈现形式之一,赋予了计算更强大的生命力和应用范围。在当下,每次优质的计算输入和输出组成了模型的训练集,沉淀下的智慧能力表现为数亿参数的高维矩阵模型。

来自于计算的关键元素从量变进入到质变阶段,算力、数据、算法都迎来了新的发展阶段,不朽的计算将带来模型能力的质变:

算力:芯片遵循摩尔定律,正在挑战当前光刻机的极限,为我们带来了接近2nm的晶体管密度,这一密度接近人类大脑的神经元密度;

算法:迎来了Transformer的架构革新,为我们提供了可以容纳更多数据的智慧框架,因模型架构的能力边界拓展,Scaling Law得以将每次计算的智力沉淀在模型的高维矩阵当中;

数据:互联网经过几十年的发展,将人类的巨量语料完成了数字化,正在提供更多可以用于训练的数据,越来越多的人类生活信息被线上化、数据化,给计算带来更多学习智慧的素材。

未来,凝结计算智慧的超级模型将出现,当前所有模型都是通往超级模型的阶段性形态,当前模型的能力都是未来超级模型的子集。超级模型的计算能力将会突破当前模型的边界,超级模型的架构将是强大的通用智慧底座,和垂直领域专家模型的调用:

就底层模型能力而言,参数体量更大的模型、多个专家模型联合调用的使用模式,将会逐渐提升模型的智慧水平;

就模型的输入而言,多模态会帮助模型理解问题的复杂性,从而带来更准确的回答,更长的文本输入将会让模型像人一样深度思考问题的前因后果。

超级模型的Prompt输入,将会扩展至对齐人类的认知输入,乃至超越个体思考的输入水平。只有超级模型的综合能力超越某个个体,模型的智慧水平和能力边界才会拓展至超越人类的范畴。

模型的学习能力无限接近于人类的学习能力,但模型的学习速度、信息获取能力因其硬件设备的可扩展性,而远远领先于肉身人类。如果沿着模型发展的想象力继续推演,硬件基础、软件模型所支撑的“不朽的计算”,将成为我们通向AGI的一种可能路径。

2.多模态:模型的完整感官

多模态能力将是模型的标配,这既是人类拥有智慧的方式之一,也是人类处理问题的重要模态。大语言模型表现出了模型架构的智慧能力,这种模型架构也正在多模态领域表现出“智慧涌现”的可能性,Sora正是这样的一个范例,模型可能通过视频学习到直接的物理规律,正如孩子可能通过小车玩具学习到惯性规律。

现实世界的情境通常涉及超出文本的信息,包括多种模态,特别是视觉方面的信息。因此,LLM驱动的智能体的下一个进化方向是获得处理和生成多模态信息的能力,这种能力对于这些智能体演变成更加强大的AI实体,镜像人类水平的智能至关重要。人工智能既需要处理单一模态的能力,也需处理多种模态(如视频或音乐),甚至可以跨越不同的模态(如从文本生成图像)的能力。

Transformer 在各个领域都表现出了卓越的缩放特性,包括语言建模、计算机视觉和图像生成。OpenAI 的 Sora 就是视觉数据的通用模型,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。Sora 既是个扩散模型;给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的“干净”patches。Sora 也是一个扩散 Transformer。

DiT(Diffusion Transformer,扩散模型)让我们看到了Transformer架构在多模态领域扩展的可能性。沿着这个思路,不同的模态(图片、视频、音频、动作序列等)都有可能通过Transformer架构复合性地组织出对应的生成式大模型。Transformer在其他领域的延伸,有望带来多个模态内的“智慧涌现”,从而让我们看到更全面的AI智慧形态,OpenAI于5月发布的GPT- 4o就是这一智慧形态的初步体现。

3.生成世界:形成世界模型

在《How we learn》中,Stanislas Dehaene将学习定义为“学习就是形成一个世界模型”,这意味着智能也需要理解我们周围环境并建立一个内部模型来描述它们的能力。正如OpenAI发布的其训练Sora的动机:“我们正在教AI如何理解和模拟物理世界中的运动,目标是训练出能够帮助人们解决需要与现实世界进行交互的问题的模型。”毫无疑问,人类的很多智能都与世界建模相关,朝着开发像人类一样理解世界的更智能的 AI 模型迈进,是目前智能发展的一条主要道路。

人工智能通过学习形成世界模型,以期在数字世界中可控且可重复地看到在现实中会出现的结果。传统的仿真方法需要一点点建模,积累大量工程数据,不断调试算法和方程,去逼近真实,且当涉及到不同主体的相互关系的时候,其复杂程度在成指数级增长。而以 OpenAI Sora为代表的一系列应用尝试,似乎让人们看到了自学习掌握世界模型的可能,对于模型的语义理解,对于相互之间的动力学关系都有了巨大的进展,其生成式能力为我们接近世界模拟器开辟了可能性。

正如刘慈欣在早期的短篇小说《镜子》中描述的“超弦计算机”的故事:如果用镜象模拟方式为一个鸡蛋建立数学模型,将组成鸡蛋的每一个原子的状态都输入模拟的数据库,当这个模型在计算机中运行时,如果给出的边界条件合适,内存中的那个虚拟鸡蛋就会孵出与现实中的那个鸡蛋孵出的小鸡一模一样的小鸡来,这就是最理想的世界模拟器。

三、智能体演进:以进化方式 1. 人类-人工智能-AGI智能体 (1)始于模仿的智能

人类智能的进化经历了数百万年,人工智能的发展只有60多年。智能是一种现象,甚至是我们可能看到的最复杂的现象。对人工智能的探索始于人类的主体性。制造工具将人类与其他物种显著区分开来,而人有理解自己的强烈动机,探索人工智能,实现 AGI可能是人类在这一能力象限上最后的圣杯。

人工智能最初目标是拥有与人脑相同的功能,但我们不会也没必要对大脑进行完美复制。真正的问题在于,要试图理解这些基本原则是如何从自然界中提炼出来的,从而指导我们构建事物。某种意义上,智能的涌现与生物界的进化相似,进化的聪明难以告诉我们进化是怎么做到的,同理智能体的发展和涌现也未必要等我们完全理解人类智能。在科学没有给出原理帮助我们设计系统之前,我们所能做的就是构造复杂系统,等待AIGC涌现。从更高意义上说,深度学习也可以帮我们更好地理解人类自身,它提供了一个全然不同的视角,并正解开这个星球上最为复杂的奥秘——人类智能的本质。

正如特伦斯·谢诺夫斯基在1989 MIT 讲座上对比的,在苍蝇只有10万个神经元,重量只有1毫克,消耗1毫瓦的能量,但它却能看、飞、自我定位和觅食,甚至可以通过繁殖来进行自我复制。

而超级计算机,需要1亿美元的投资和兆瓦级的能量供应,以及大量的人力来满足它对程序的需求。尽管超级计算机可以与其他计算机交流,但它无法看、飞、交配或自我复制。

(2)何为智能体 2.大脑:从神经网络到LLM,作为大脑模型之一的深度学习 (1)大脑是已知宇宙中最复杂的设备,深度学习是仿生产物 (2)大语言模型 LLM——先求其然,不求其所以然 3.身体:具身智能革命 4.生命:解译基因的巨量计算 (1)人类基因组计划推动了基因测序行业最先落地 (2)基因编辑工具开启了可编程药物时代 (3)以合成生物学为代表的生物经济全面崛起 四、生成未来:模型吃掉世界,智能体成为生产力 1.生成式AI带来生产主体和价值分配革命 2.生活形态革新 ——智能即服务 3.交互界面升级 ——从理解到互动调配 超级智能尚未到来,当下机会与路径 1. 大模型≠好产品:从沙滩到用户,从阳光到智能 2.超级模型基础设施:算力,能源 (1)算力 (2)能源 3.当下应用场景: 平衡模型能力和场景需求


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1