进入2023年,ChatGPT着实让人类感受了一把被AI支配的恐惧。
它超强的上下文理解,泛化,学习和推理能力,以逼近人类互动体验的方式呈现出来,让所有人耳目一新。哪怕它和它的同类竞品纷纷暴露出诸多的问题,依然难阻人们每天惊呼一次“奇点”来临,日日担心自己的工作被取代,纷纷转述比尔盖茨,纳德拉和黄仁勋们对ChatGPT的赞赏。各路人马也纷纷行动起来,最新的是马斯克,在批评了自己参与创办但早已没有股份的OpenAI旗下ChatGPT的安全问题后,随即传出他自己正在计划组队开发ChatGPT的替代品。
一切都飞快的发展着,这个沉寂了一段时间的行业终于又被焦虑和聒噪笼罩,这给人一种错觉:
仿佛这场关于ChatGPT的竞争就要在一夜之间决出胜负。
图源:Unsplash
而在这些焦躁里,那些本该更清晰指向这场竞争真正本质的特征——ChatGPT的千亿参数,每一次调用的可观费用,OpenAI坐的多年冷板凳等等——也被用于了制造短期恐慌。这些或主动或无意的讨论事实上都在纠结于ChatGPT里“chat”的部分——对商业模式,对可能改变的人类对互联网的使用习惯以及对错失新投资或是投机机会的恐慌。
这些焦虑对想把水搅浑而入局的人以及煽动人工智能威胁论的人们来说是喜闻乐见的,但对于真正理性看待这场技术竞争是无益的。
某种意义上,与其说ChatGPT证明了某一条AI研究路线的成功,倒不如说它更大的意义是证明了AI这些年不断收敛但依然存在多种选择的各类路线里,最终真的是会走出一条路的:也就是,它第一次证明了这场技术革命真的会到来。
而当我们真的把它当作一场技术革命来看时,就会明白这是一场将持续很久的复杂系统的比拼,也才有可能寻找到真正具备竞争能力的中国参与者,会明白这场新的技术浪潮的竞争不会“浓缩于一个晚上”。
让Chat的归Chat,GPT的归GPT
“ChatGPT是AI的iPhone时刻。”英伟达创始人及CEO黄仁勋在近期的一次演讲里形容。“iPhone时刻”的说法随之变得十分流行,它代表了今天对ChatGPT的热闹讨论里非常流行的思考方式——人们与AI终于找到了最佳交互界面,从此一切新技术都可以用来替代旧应用。而这也成了很多中国的焦虑者参与ChatGPT“创业潮”的通行证。
但这种“iPhone时刻”的说法,有道理,但无益处。
与黄仁勋类似,微软创始人比尔盖茨和微软现在的CEO纳德拉也对ChatGPT做了与黄仁勋“互文”般的表达:比尔盖茨把它的意义比作互联网的诞生,纳德拉说它堪比工业革命。但对这几家公司在最近这波浪潮里的角色稍加分析,就会明白,通过投资OpenAI而占尽ChatGPT红利的微软,和因为ChatGPT而再次进入新的“收税”模式的英伟达,如此表达的另一层含义,是希望这场技术革命最终建立在它们自己的商业帝国之上。
至少现在来看,iPhone时刻还只是他们的,并不是我们的。
因此跟着这样的思路去讨论是偷懒的且无益的,尤其是作为ChatGPT没有率先诞生在中国这个事已成事实的今天,它只会让人们继续关注被他人定义的“Chat”的部分,着急的去跟着iPhone做应用,最终给iPhone添砖加瓦;它也会让人们陷入窘迫而难以静下来,无暇真正了解我们自己“GPT”部分的进展。
在大模型上,一些从业者早已对“iPhone”时刻足够警惕,对建立在它人底座上的模式创新已有充足反思和警惕,并已付诸了行动。
OpenAI在2020年发布了1750亿参数的GPT3,根据公开资料,那之后中国公司和机构发布的超过千亿参数规模的大模型包括百度发布的Ernie(文心),华为发布的盘古大模型,和阿里巴巴发布的M6大模型等。
2021年,百度基于其已有的ERNIE模型框架,发布了百亿参数的对话大模型PLATO-XL,到了最新发布的ERNIE 3.0 Zeus,模型已有千亿级参数。结合自身的PaddlePaddle训练框架,让Ernie从一开始的对中文语境的优化到现在得到全球研究者越来越多的关注。2021年4月, 华为对外公布了盘古大模型。根据公开资料,其在预训练阶段学习了 40TB 的中文文本数据,并也已达到千亿级参数规模。
而2021年4月,阿里巴巴达摩院发布的270亿参数语言大模型PLUG,被称为中文版“GPT-3”。同年阿里巴巴还发布了国内首个千亿参数多模态大模型M6。
图源:达摩院官网
阿里巴巴的这两个大模型都在过去几年继续进化, 2021年10月,PLUG模型实现2万亿参数 ,2022年11月,它所属的阿里通义-AliceMind,在中文语言理解领域权威榜单CLUE中首次超越人类成绩。而M6在不断提高着训练效率,2021年10月,达摩院使用512卡GPU即训练出全球首个10万亿参数大模型M6,同等参数规模能耗为此前业界标杆的1%。并且,M6还在进一步做多模态的打通。达摩院的诸多模型集成在2022年发布的“通义”大模型系列中。
这些大模型的进步也引来了包括OpenAI在内的同行的关注,OpenAI的前政策主管Jack Clark曾公开点评M6模型,称它“规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”
可以看出,中国的参与者并不少,参与的也并不晚,成果也并非乏善可陈,否认这一点是虚无的。而且,但凡亲自训练过大模型的研究者都不难得出结论:最好的方式就是在已有建制的基础上去继续加速。
因为今天诸多对AI模型的研究已经发现,大模型许多能力上的惊人突破,并非一个线性的过程,而是会在模型尺寸达到一个量级时发生突然的“进化”,也就是“突现”。不管你喜不喜欢,但事实就是,虽然AI看起来高大上,但它的突破需要的,的确是一次不期而至的“大力出奇迹”。
但如果留意最近一段时间的讨论,会发现一些此前曾表示开发出大模型的机构和领头者或明星科学家,却选择跳离这些机构,避而不谈曾经高调宣扬的自己已有的进展,放弃更接近突现的节点而去从零开始,背后原因可能不言自明。
一些人抓住“一生一遇”机会的方式,是追随别人的iPhone时刻而去,试图重新来过,过度兴奋于“chat”高度拟人的实现效果带来的资本与商业想象力。但那些真正在产业里摸爬的中国科技公司,那些真正花很多年的心血打造自己的大模型的中国人工智能科学家们心里清楚:真正的属于自己的iPhone时刻,不在众声喧哗之侧,不在“chat”本身,而是在“GPT”上,也就是自己曾经多年的辛苦建模、训练和调参的基础之上。
只有让Chat的归Chat,才能让GPT的归GPT,自己的GPT,比什么都重要。
论系统战,论持久战
当我们从这种“历史在一夜之间改变”的兴奋脱离出来,会明白大模型的竞争是一场全面战争,它像所有历史上波澜壮阔的技术变革一样,也将是旷日持久的。
这种全面战争首先体现在它不只是某一个模型的问题,而是一个系统的问题。
在人们津津乐道的微软借助OpenAI逆袭谷歌的故事里,有些被忽略的是微软提供给OpenAI的云计算能力对ChatGPT的重要性。
根据公开资料,微软为OpenAI的GPT3训练,提供了一个有一万块 GPU的分布式集群,并且这些昂贵的计算资源和计算能力也专门为OpenAI做了优化。
微软的云计算Azure,为OpenAI建立和部署了多个大规模的高性能计算(HPC)系统,根据一些研究数据,微软Azure“与其他云服务对手相比,为每个GPU提供了近2倍的计算吞吐量,并且由于其网络和系统软件的优化,可以近乎线性地扩展到数千个GPU。在模型推理方面,微软Azure更具成本效益,每美元的推理能获得2倍的性能。”
这说明类似ChatGPT的大模型是AI+云计算的全方位竞争,需要超大规模智算平台对芯片、系统、网络、存储到数据进行全盘系统优化。
这些作为基础设施的计算平台提供的不只是高效率的支持,往后更多的甚至是定制化的支持——一丁点的算力浪费,都会是这场竞争里致命的成本。
这种复杂的系统是以云计算为代表的新技术发展到极高复杂度阶段的结果,而中国科技公司在这个技术周期里生长出来的技术自觉和为此付出的长期努力,让它们也拥有了自己的复杂系统,从而也有了参与这场ChatGPT竞争的“入场券”。
其中能力最为完备的当属阿里巴巴,因为云、数据、系统和芯片。
阿里云的飞天智算平台在去IOE的过程中诞生,逐渐成长为一个超大规模的高性能计算集群,并且已是国内唯一能实现万卡规模的AI集群。它在一个超大规模高性能网络中,构建了一个可以持续进化的智能算力系统,与此同时,阿里云自研的高性能集合通信库ACCL和自研的网络交换机也建立了无拥塞、高性能的集群通讯能力。
据公开资料,飞天智算平台的千卡并行效率达90%。针对数据密集型场景的大规模集群,还进行了数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。此外飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。阿里的M6模型,在训练阶段使用的正是阿里云机器学习PAI平台自研的分布式训练框架EPL(Easy Parallel Library)。
这场全面战争还体现在,它并不是一场比拼谁更接近标准答案的战争。
图源:Unsplash
大模型本身也是一个精妙的系统,它不会只有一个答案,甚至无法只有一个答案。一个例证就是,ChatGPT的真正复现到今天依旧无人实现。一方面,是技术本身越来越闭源,另一方面,真正实现性能突破的许多关键环节,有时真的是一种艺术性的存在,或者更直白的说,是碰运气的过程,因此没有答案可抄。
比如,根据GPT3的论文,这个模型的大小和数据量,是根据OpenAI自己的扩展规律决定,因此对于另外一个模型,哪怕是同样的算力条件,模型和数据的配比也可以有不同的思路,GPT3最终的配方是1750亿参数和2500亿token的数据,而另一个知名的类似模型,DeepMind 旗下的Chinchilla,则是1100亿参数和5000亿token,但后者在一些性能上也与GPT3不相上下。也就是,任何一种“配方”都很难直接使用,它很大程度取决于基础模型的特点,很多时候在那些模型的论文里简单的一句结论,背后就是巨大的试错成本。
这是挑战,但也是机遇所在:能最极致的做好“软硬件结合”的模型和平台,就有机会用最适合自己的配方更进一步。
最典型的当属英伟达。当几乎所有的模型训练都需要在它的硬件上完成,最能发挥硬件性能的软件框架自然也最可能由英伟达制造。英伟达发布的NeMo Megatron 就曾宣称仅用 11 天就完成了 GPT-3 的训练,还和微软合作,在 6 周内完成了 Megatron 的一个5300 亿参数模型的训练。
同样的,阿里云的计算硬件,软件平台和大模型的全方位系统优化,也带来效率的提升。通义-M6已经实现使用512 位GPU在10天内训练出具有可用水平的10万亿模型的能力,相比GPT-3,同等参数规模能耗仅为其1%,此外达摩院研发的超大模型落地关键技术S4框架(Sound、Sparse、Scarce、Scale)也提供了“浓缩”能力,让百亿参数大模型在高压缩率下仍能高精度完成多个任务,使“通义”系列模型已在服务的200多个场景中实现了2%-10%的应用效果提升。
也就是说,这场全面竞争里最需要的是一个自己的方案,一个能自主掌控更多环节从而实现全局调优的自己的方案。这样的能力更重要的意义在于,它们将不只是用于跟随——面对一场全面的技术浪潮,人们往往习惯在短期过于兴奋与高估,激动的把开局理解为终结,但事实上技术浪潮会是长期的。这也是每一场全面战争里都会发生的事情。而拥有自己的复杂系统掌控能力和基于此的技术理解能力,会在长期的竞争里提供一定的技术定力。
对于当前的ChatGPT来说,它其实有着鲜明的开局感:它基本上还是一个语言模型,而AI研究者这些年已经开始奋力追逐多模态模型——过往人工智能模型有些八仙过海的意味,架构众多,但2017年之后,Transformer的出现改变了这种趋势,这之后算法架构从包括ChatGPT的NLP到视觉都迅速统一到以Transformer为底层架构的路线,于是不同模态的模型更有了统一的可能。因此,某种意义上,ChatGPT可能只是未来真正“恐怖”的多模态大模型的第一个明确了的组成部分。
这样的一场全面战争刚刚开始。曾经因为相信所以看见而衍生出来的技术路线,让一些中国互联网公司在技术浪潮来临前握住了那最初的浪花,而今天ChatGPT预示了大浪终将到来,对于那些用了多年建立起来自己的技术完备能力的中国互联网巨头来说,终于到了因为看见所以相信的时刻。