当前位置:首页|资讯|ChatGPT

张红超_进入2023年,ChatGPT着实让人类感受了一把被AI支配的恐惧

作者:一加科技范发布时间:2023-03-06

原标题:张红超_进入2023年,ChatGPT着实让人类感受了一把被AI支配的恐惧

ChatGPT之战并不凝结在一晚

进入2023年后,ChatGPT确实给人类带来一把受AI统治的恐惧心理。

其超强语境理解、泛化,学习与推理能力,在近似人与人互动体验中展现,给大家耳目一新的感觉。哪怕它和它的同类竞品纷纷暴露出诸多的问题,仍然难阻天天都有“奇点”降临的感叹,日日为工作代劳而烦恼,纷纷转到比尔盖茨身上,纳德拉和黄仁勋们对ChatGPT的赞赏。各路人马,亦是动作频频,最新消息,马斯克,在对其参与创建却长期无股权的OpenAI公司ChatGPT进行安全批判之后,紧接着又爆出自己正打算组队研制ChatGPT替代产品。

一切都是在飞速地发展,沉寂了好一阵子的产业最终又笼罩在焦虑与聒噪之中,让人们产生幻觉:

似乎这一场与ChatGPT有关的较量,即将一夕之间分出高下。

而这些不安中,那些本应该更加明确地指向这一竞争的真正精髓,即ChatGPT千亿级参数,每次调用都有相当大的开销,OpenAI多年来坐在冷板凳上等—还用来造成短期恐慌。这些焦虑是如何形成的?这些或明或暗的探讨,其实正纠缠着ChatGPT中“chat”这一部分,也就是对于商业模式的探讨,对于可能会发生变化的人类上网习惯,对于错过新的投资或投机机会,都会感到惶惑。

这些忧虑对于那些想要搅浑水入局者和鼓动人工智能威胁论者都很欢迎,但是,对真正合理地看待这种技术竞争并没有什么帮助。

从一定意义上说,ChatGPT与其说是在验证某种AI研究路线是成功的,倒其更重要的含义在于,在AI这几年持续趋同却仍有多个选项的各种线路中,都能得到印证,最后还真要走出来了:那就是,首次论证了这一技术革命将真正来临。

而当把这真正看成是技术革命的时候,才知道,原来是一场复杂系统之间的竞争,要延续很长一段时间,也只有这样,才能找到真正有竞争能力的中国参与主体,你会明白,这场新技术浪潮的竞争不会“浓缩在一晚”。

让Chat的归Chat,GPT的归GPT 让Chat的归Chat,GPT的归GPT

“ChatGPT是AI的iPhone时刻。”“我们正处在一个伟大变革中。”英伟达的创始人兼CEO黄仁勋最近在一次讲话中这样描述。“在这个时候,'科技+'似乎成为了我们的一个关键词。”“iPhone时刻”这句话也因此大受欢迎,在当今关于ChatGPT热闹的讨论中,这代表着一种很受欢迎的思考方式,即人和AI之间最终发现一个最好的交互界面,从那时起,所有新技术均可用于取代旧的应用。在过去两年多时间里,人工智能和智能机器人成为炙手可热的话题,“人工智能+教育”已经成为最热门的词汇之一。并成为许多中国焦虑者加入ChatGPT“创业潮”通行证。

但是这“iPhone时刻”说得有理却没有用。

和黄仁勋相似,微软创始人比尔盖茨以及微软现任CEO纳德拉,也都曾向ChatGPT表示过自己和黄仁勋之间“互文”的关系:比尔盖茨将其含义喻为互联网的出现,纳德拉认为,这可以与工业革命相提并论。但是对于这些企业在近期高潮浪潮中的作用略加剖析便可知晓,通过对OpenAI的投入,微软占据了ChatGPT的红利,以及因ChatGPT重新进入全新“收税”模式英伟达,这样表述的又一层意思,就是希望这次技术革命能最终以自己的商业帝国为基础。

至少目前看来iPhone时刻还是他们的而非我们。

所以顺着这种想法来探讨,既懒惰,也没有好处,特别地,作为ChatGPT并不首先产生于中国这一事件已成为现实的时代,它能使人持续地注意到别人所界定的“Chat”这一部分,急着跟在iPhone后面制作应用程序,终于为iPhone锦上添花;同时,它也会让人感到无所适从,无所适从。同时又使人处于困窘的境地,难以安静,无暇确实知道我们本身“GPT”这一部分的发展情况。

就大模型而言,早有从业者对“iPhone”保持了足够的警觉,对于基于它者底座的模式创新,人们已经有了足够的思考与警觉,并且已经付诸实现。

OpenAI在2020年发布了1750亿参数的GPT3,据公开资料显示,在此之后,中国企业和机构推出了千亿以上参数规模的大型模型,其中就包括百度推出的Ernie模型(文心),华为推出了盘古大模型,以及阿里巴巴推出了M6大模型等等。

2021年百度在现有ERNIE模型框架下,推出百亿参数对话大模式PLATO-XL,到了最新发布的ERNIE 3.0 Zeus,该模型已具有千亿级的参数。在这样一个大规模数据集上,如何提高模型性能成为研究人员最关心的问题之一。与自己PaddlePaddle训练框架相结合,使Ernie由最初的中文语境优化发展至今,受到了全球研究者们的日益重视。华为于2021年4月份向外界发布盘古大模型。它是一个面向全场景的大规模语言理解工具,可以处理包括英文在内所有自然语言。据公开资料显示,它对预训练阶段40TB中文文本数据进行学习,并且还达到了千亿参数规模。

2021年4月,阿里巴巴达摩院发布270亿参数语言大模型PLUG,被誉为“GPT-3”的中文版。同年,阿里巴巴又推出全国第一款千亿参数的多模态大模型M6。

阿里巴巴两大模式都是前些年不断演变出来的,2021年10月份,2022年11月,PLUG模式实现2万亿参数,它所属的阿里通义-AliceMind,在中文语言理解领域的权威排行榜CLUE上,第一次超过了人类成绩。这也是目前唯一一家能够达到如此高成就的机器学习算法平台。而且M6的训练效率越来越高。2021年10月份,达摩院采用512卡GPU,也就是培训了世界上第一个参数为10万亿的大模型M6,在相同参数规模下,能耗是之前行业标杆中最高水平。并且,M6还在进一步做多模态的打通。这些数据是什么?达摩院众多型号整合于2022年推出的大型“通义”型号系列。

这些大型模型的发展,也吸引着同行们的注意,OpenAI就是其中之一,OpenAI的前政策主管Jack Clark曾公开点评M6模型,称它“规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”

可见在中国参与人数之多,参加得还不算太晚,结果并不是乏善可陈,否认了这一点,那就是虚无。因为,任何一项技术都需要一个过程才能完成它的任务。而但凡对大模型进行过亲身培训的研究人员,也不难下结论:最佳办法是在现有建制上不断加快。

由于当今许多关于AI模型研究中都发现,大模型在很多能力方面都取得了令人吃惊的突破,不是线性过程,但当模型尺寸为一数量级时会出现突然“进化”即“突现”现象。这个时候,你就必须做出选择,或者放弃,或者继续努力,否则,就很可能被淘汰出局。无论你是否愿意,事实是,尽管AI似乎很高,但是,其突破是必须的,确实是个突如其来的“大力出奇制胜”。

但是,若注意近期的议论,将找到一些以前说要研制大模型,以及领头者或者明星科学家,却选择跳离这些机构,回避了那些曾高调鼓吹过的他们所取得的进步,舍弃距离突现较近的结点,从头开始,这背后的缘由也许是不言而喻的。

有些人把握“一生一遇”机遇的办法,就是跟随他人iPhone随时离开,企图再来一次,过分激动在“chat”高拟人达成效果所产生的资金和商业想象力。这或许会使我们更容易陷入“一飞冲天”的怪圈中。但是,真正摸爬滚打于行业中的中国科技企业,真正花费了多年时间,创造出属于自己大模型的中国人工智能科学家,内心都是明白的:真正属于你iPhone瞬间,不是众声喧哗的一方,也不是“chat”自己,是“GPT”,即他曾多年艰辛建模、训练与调参基础上进行。

只有把Chat归还给Chat才会把GPT归还给GPT本身GPT大于一切。

关于系统战、关于持久战

当我们摆脱了这“历史一夜之间发生了变化”激动时,就知道了,大模型竞争就是全面战争,就象一切历史上气势磅礴的技术变革,还会长期持续。

这场全面战争,首先表现为不仅是某种模式的战争,也是系统战争。

在众口皆碑的微软借OpenAI反超谷歌事件中,一些被忽视的问题在于,微软为OpenAI提供的云计算能力对于ChatGPT来说具有重要意义。

据公开资料显示,微软为OpenAI的GPT3训练,提供了一种具有一万块GPU的分布式集群,并且这些昂贵的计算资源和计算能力也专门为OpenAI做了优化。

微软的云计算Azure,针对OpenAI,搭建并部署了若干大型高性能计算(HPC)系统,据部分研究资料显示,微软Azure“与其他云服务对手相比,为每个GPU提供了近2倍的计算吞吐量,并且由于其网络和系统软件的优化,可以近乎线性地扩展到数千个GPU。在模型推理方面,微软Azure更具成本效益,每美元的推理能获得2倍的性能。”

由此可见,与ChatGPT相似的大模型在AI+云计算中表现出了全方位的竞争,要求超大规模的智算平台到芯片,系统和网络、储存在资料中的全盘系统优化。

这些计算平台充当了基础设施,不仅为高效率提供了支撑,后期更是连定制化都支持—浪费半点算力,都将在竞争中付出致命代价。

这类复杂系统是云计算所代表的新技术向复杂度极高阶段发展的产物,以及在这一技术周期中成长起来的中国科技公司的技术自觉,并为之进行了长期不懈的奋斗,使它们也有了各自复杂的系统,由此还有一张“入场券”可以参加这ChatGPT的角逐。

在这些能力中,最完整的要数阿里巴巴了,因为它是云,它是数据,它是系统,它是芯片。

阿里云飞天智算平台正在前往IOE途中应运而生,逐步发展成超大规模高性能计算集群,并已经成为全国惟一能够达到万卡规模AI集群。处于超大规模高性能网络,在建设可不断演化智能算力系统的同时,阿里云自研的高性能集合通信库ACCL和自研的网络交换机也建立了无拥塞、集群通讯能力强。

根据公开数据显示飞天智算平台千卡并行效率为90%。同时在云计算、大数据分析等方面也取得突破性进展。面向大规模集群数据密集型情景,并对数据IO进行优化,采用自研的KSpeed与RDMA相结合的高速网络架构,存储IO的性能最多可以提高10倍,时延明显减小90%。针对高并发应用需求,飞天智算提供高效、可靠的负载均衡机制。另外,飞天智算平台机器学习平台PAI,专为AI大模型推理与训练场景提供针对性的优化,可以使计算资源的利用率增加三倍多,AI训练效率提升11倍,推理效率提高了六倍。本文设计实现了面向海量数据计算的高性能分布式系统,并取得良好的应用效果。阿里M6模型在培训阶段采用了阿里云机器学习PAI平台上自研分布式培训框架EPL(Easy Parallel Library)。

这种全面战争也表现为不较量谁离标准答案更近。

大模型,本身就是一种精巧的体系,就不可能有唯一的回答,连答案都不可能只剩下。实例之一是,ChatGPT真实复现至今还没有人做到。在很多人眼里,”大模型“似乎已经成了”大问题“。其实,这是误解。实际上,真正实现性能提升的关键在于设计上。而不是技术上。事实上。这并不容易。一方面是科技自身日益闭源,要想真正取得性能突破,很多关键环节都要做到,有时候确实是艺术性存在,还是直截了当点,就是碰运气,所以无答案可抄录。

例如在GPT3论文基础上提出,该模型具有规模大,数据量大,由OpenAI本身扩展规律确定,所以对另一种模式来说,哪怕是同样的算力条件,在模型与数据之间的比例上,还可能存在着另一种想法,GPT3的最终配方为1750亿参数,2500亿token数据,以及另外一种著名的同类型号——DeepMind的Chinchilla,则是1100亿参数和5000亿token,但是后者的某些性能也可以和GPT3相媲美。所以说,我们不能盲目地追求某种“配方”,因为这不是一件容易做的事情。即没有哪个“配方”是难以直接应用的,在相当程度上决定了基础模型的性质,更多情况下,这些模式的试卷中都会有一个很浅显的结论,在这后面,是极大的摸索成本。

充满挑战却又充满机会:能够最为极致地完成“软硬件结合”模式与平台,便有了使用最合适配方进一步发展的可能。

其中以英伟达最为典型。几乎全部模型训练时,均需在其硬件中进行,带着硬件性能玩的软件框架,当然最容易被英伟达创造出来。英伟达推出的NeMo Megatron曾经声称在短短11天内完成GPT-3,并与微软进行了合作,Megatron一个5300亿参数模型是在六周内进行的。

无独有偶,阿里云在计算硬件方面,对软件平台及大模型进行全方位系统优化,还带来了效率提高等。与GPT-3相比较,通义-M6实现了利用512位GPU用10天时间培训10万亿级模型,在相同的参数规模下,能耗只有它的1倍,另外,达摩院开发的超大模型落地关键技术S4框架(Sound、Sparse、Scarce、Scale)还提供“浓缩”能力,使得百亿参数的大模型仍然能够以高压缩率,高精度地执行多项任务,使得“通义”系列模式在所服务200余个场景下,应用效果提高2%-10%。

换句话说,在这全面竞争中,最重要的就是要有一套属于你的计划,一种能够独立控制更多的环节,进而达到全局调优目的的属于自己的计划。如果你有足够的自信和勇气,能够做到这一点,那么你就可以说,你已经拥有了应对未来挑战的本领。这类能力更为重要,它们将不仅仅是用来追随——在全面技术浪潮面前,人常常习惯于短期的过分激动和高估,兴奋地将开始理解成结束,但是,实际上,技术浪潮将持续很长一段时间。当技术发展到某一阶段后,我们才意识到,原来自己已经被对手掌握了。在历次全面战争中,这种现象同样存在。并具有自身对复杂系统的掌控能力,以及在此基础上对技术的理解能力,将在长期竞争中提供某种技术定力。

对现行ChatGPT,实际上有一种明显的开局感:在很大程度上仍然是一种语言模型,而AI研究者们在这几年也开始了对多模态模型的苦苦追求——以往的人工智能模型多少有点八仙过海、架构繁多的味道,但是在2017年后,Transformer等人的到来,使这一趋势发生了变化,在此之后,算法架构由包含ChatGPT在内的NLP在视觉上快速统一至Transformer作为底层架构之线路,因此,不同模式的模型就更加容易实现统一。所以从一定意义上说,ChatGPT也许仅仅是将来真正“恐怖”多模态大模型中第一个清晰的部分。

如此全面的战争才刚刚开始。曾因信任而看到,从而引申出技术路线,使得部分中国互联网公司,在技术浪潮到来之前,就握着那朵原始的浪花,而现在的ChatGPT则预示着大浪最终会来临,对中国互联网巨头们而言,他们花了很多年时间,打造了一套技术完备的能力,总算是该因看而信了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1