面对全球以ChatGPT为代表的新一代人工智能的飞速发展,构建高质量的基础大模型基座,快速将大模型能力转换为新质生产力,进而带动算力产业的快速发展,是引领下一步全球人工智能发展方向的重要抓手,也是我们追赶当下最新GPT-4的机会所在,而这背后需要的是我们相关产业,无论在技术创新,还是商业模式的选择上,不能一味地跟随,而是要结合国情及产业自身的特点独辟蹊径才能实现。
GPT-4:核心还是基础大模型能力的强大
日前,引发全球科技界高度关注的OpenAI创始人、“ChatGPT之父”山姆•奥特曼(Sam Altman)被OpenAI董事会解雇的乱局,最终以山姆•奥特曼重回OpenAI继续担任首席执行官而尘埃落定。
而就在此次乱局发生之前,山姆•奥特曼曾在本月初举办的首届OpenAI开发者大会上宣布,每周有一亿用户使用ChatGPT。自今年3月发布ChatGPT的API功能以来,该公司已拥有200多万开发者,其中包括92%以上的财富500强企业。
以微软为例,Bing聊天是最早使用GPT-4的平台之一。通过GPT-4,Bing聊天可以对用户的查询提供更正确和相关的回复。
此外,微软还发布了GPT-4平台支持的新AI功能,名为Copilot,它将适用于Word,、PowerPoint、Excel、Outlook这些微软热门的Microsoft 365商业软件。微软声称,Copilot的功能比简单地“将OpenAI的ChatGPT嵌入到Microsoft 365中”更强大。Microsoft 365的主管、微软现代工作和商业应用副总Jared Spataro介绍,Copilot与用户一起工作,嵌入数以百万用户日常使用的Word、Excel、PowerPoint、Outlook、Teams等App中,是“一种全新的工作方式”。
对此,浪潮信息高级副总裁刘军认为:“上述其实是在应用层面业内看到的GPT的能力,而这些应用层面的落地最终是由其底层的基础大模型能力所支撑和决定的,这就是为什么我们认为国内大模型发展的核心还是应该聚焦在基础大模型能力的提升上,因为惟有这样,才能够支撑在用户端应用水平的提升,就像我们对人才的教育,最终从学校里面培养出来的是一个高素质,综合能力强的人才,你把他放到什么样的专业和行业,都会有更好的表现。但如果综合能力是小学水平,你把他放到不同的专业和行业中,不是说不能干,可能也能干,但最大的可能就是照猫画虎,指望其展现出很高的水平,这个概率是比较低的“。
事实的确如此。与此前的GPT-3、GPT-3.5模型相比,GPT-4具备了多模态功能,支持接受图像和文本输入并输出文本。
例如在图像文字、复杂推理任务领域展现出的优秀能力方面,GPT-4可根据图像信息识别图像中包含的信息,并生成文字反馈;在论文理解方面,可以智能识别论文截图中包含的文字以及图表内容并进行汇总分析,实现论文的总结归纳功能;在复杂问题推理上,可准确解答数学题,并根据题目要求输出推理计算过程,相比于GPT-3和GPT-3.5进步显著。而这些无一不是基础大模型能力强大的体现。
夯实基础大模型底座,算力、数据、算法挑战犹存
说到基础大模型,业内自然就会联想到通用人工智能。
与狭义的人工智能相比,通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型,能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力,这些能力的背后,所蕴藏的则是通用大模型智力水平的高低。
以大模型的“涌现”为例(大模型的涌现能力可以为基础大模型提供基础,通过在大规模数据上学习,模型可能会涌现出在多个任务上都有用的特性,使得它在通用性上表现更好),2021年8月,李飞飞和100多位学者联名发表一份200多页的研究报告《On the Opportunities and Risk of Foundation Models》,深度地综述了当前大规模预训练模型面临的机遇和挑战。
在该文中,AI专家将大模型统一命名为Foundation Models,可以翻译为基础模型或者是基石模型,论文肯定了Foundation Models对智能体基本认知能力的推动作用,同时也指出大模型呈现出“涌现”特性,即在系统的各个部分相互作用中出现的一些新的、不可预测的特性或行为。例如在大模型的上下文中,涌现通常指的是模型在训练过程中产生了一些意想不到的、具有价值的特性或能力。但随之而来的则是除了数据、算法之外,对于算力需求的增加。
以ChatGPT模型为例,公开数据显示,其所使用的GPT-3大模型所需训练参数量为1750亿,算力消耗为3640PF-days(即每秒运算一千万亿次,运行3640天),需要至少1万片V100 GPU提供支撑。据统计,当模型参数扩大十倍,算力投入将超过十倍,这之中,模型架构、优化效率、并行处理能力以及算力硬件能力等因素均会影响具体增加的倍数。
由此可见,基础大模型的算力系统并非算力的简单堆积,其需要解决诸如低时延海量数据交换;多台机器均衡计算、避免冷热不均、消弭算力堵点;解决在几个月漫长的计算过程中,当单一硬件出现故障时,训练中断、梯度爆炸、算法重新走一遍等一系列的挑战,是一项复杂的系统工程,需要从系统层面加以创新,从算力效率、线性扩展、长效稳定等多个方面进行探索,进而为高质量的基础大模型筑基立法,抢赢研发与应用落地的时间窗口。
在算法层面,大模型训练不仅依赖高质量数据,同时也要解决算法收敛、断点续训、参数优化、模型微调等挑战,数据质量、代码调优、执行效率等关乎训练质量的因素。特别是在大模型预训练过程中,使用大量且多样化的文本数据可能导致模型在特定任务数据集上无法准确捕捉分布特性等,进而影响训练的效率和成本。
以Transformer架构为例,目前学术界大部分的工作都是围绕如何提升Transformer 的效率展开,硬件结构也都是围绕如何优化Transformer的方式而设计,虽然其为业内带来了创新突破,但仍然存在一些局限性。例如,对于长序列的处理和对序列中的顺序信息的处理算法,会增加算力消耗和成本,而这为改进注意力机制、剪枝和量化等这些当前未曾突破的瓶颈与值得创新的发展方向提出了挑战。
在数据层面,以预训练阶段的数据集为例,高质量的训练数据越大,大模型的推理能力越强。例如GPT-3,来源于维基百科、书籍及学术期刊等高质量数据仅占其数据集的17.8%,但其在模型训练中的权重占到了40%,但不幸的是,大模型训练所需要的数据集的增速远大于高质量数据生成的速度,导致高质量数据逐渐面临枯竭,而这无疑对于高质量训练数据的提取提出了更高的创新要求。
对此,浪潮信息人工智能软件研发总监吴韶华称,我们在做大模型时,从2018年到2023年把互联网上所有的中文网页,包括社群数据的网页全都提取出来,数据源差不多有12PB左右,清洗之后的中文社群数据只有不到10GB,体量非常之小,却花了巨大的努力,即便如此,这不到10GB的中文社群数据的质量,经我们分析后依然认为是不够高的。可见提取高质量训练数据,即数据既要多样性,同时也要保持高质量的挑战之大。
追赶与落地,技术与商业模式应独辟蹊径
针对上述挑战,国内大模型可谓是百花齐放,以期望在追赶GPT-4的同时,加速大模型的应用落地。据《2023—2024年中国人工智能计算力发展评估报告》显示,截至2023年10月,中国累计发布两百余个大模型,发布地主要集中在北京,其中以科研院所和互联网企业为开发主力军。
对此,刘军认为,在产业发展初期,中国大模型的“百花齐放”是利好的,很大程度它可以促进产业生态的繁荣发展。依托通用大模型的能力,从垂直场景应用有针对性地切入,构建技能模型,进而落地行业模型,从长远的发展路径来看,它是我们走向通用人工智能的必经之路。
尽管如此,面对国内当下泥沙俱下的“百模大战”,业内还是亟待从大模型的技术创新和商业模式上,针对我们前述存在的挑战,能够独辟蹊径,走出与GPT-4殊途同归之路,并在未来尽快赶超GPT-4,加速大模型的应用落地,促进更多性能强大的基础大模型的出现,以让国内的大模型产业,无论是在现在和未来的发展洞察,还是技术与商业模式的实践中都有参考的价值及意义。
可喜的是,国内已有厂商开始进行大胆的尝试。
以浪潮信息最新发布的源2.0基础大模型为例,其在包括与基础大模型密切相关的算法、数据和算力的技术层面均进行了有别于GPT-4的大胆创新和尝试。
例如在算法创新上,源2.0提出并采用了一种新型的注意力算法结构,即局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。LFA通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。
据浪潮信息对模型结构进行的有效性消融实验显示,相比传统注意力结构,LFA模型精度提高了3.53%。
“在最终的模型训练上,最大参数只有1026亿的源2.0,在LFA算法的加持下,也能比用2457亿参数的源1.0,训练同样大小Token数的Train Loss降低28%。而训练的损失曲线越小,意味着大模型对于训练集的特征学习得越好”。吴韶华进一步解释了LFA算法因创新而给基础大模型带来的能力提升。
在数据创新方面,源2.0通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。此外,为了更高效地获得相对匮乏的高质量中文数学及代码数据集,源2.0还采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时,也在每一个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。
在算力方面,源2.0采用了非均匀流水并行的方法,综合运用流水线并行+优化器参数并行+数据并行的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题,该方法显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。
“相当于给你一条高速公路时,能跑到每公里200公里的时速,但给你一条羊肠小道,也能跑起来,并把最终的结果跑到。”刘军如此比喻在算力资源有限或配置不均的条件下,上述高性能训练方法所带来的同等算力效率的提升。
而说到算力效率的提升,这里我们需要补充说明的是,如何提升大规模分布式训练的计算效率一直是大模型预训练的一个核心挑战。特别是在实际的AI集群环境中,会存在GPU之间的互联带宽受限或者AI服务器之间的网络互联带宽有限,进而影响大模型预训练的计算效率。
为此,浪潮信息基于“源”大模型的研发经验,2022年以来,其AI团队协助多个客户将大模型训练的GPU峰值效率从30%左右提升到50%,从而大幅加速了模型训练过程,助力千亿参数规模的自然语言AI单体大模型在淮海智算中心计算平台上的训练算力效率达53.5%,刷新了业内AI大模型训练算力效率新高。
正是基于上述在基础模型的技术创新和以往的积淀,源2.0在业界公开的,包含有代码生成、数学问题求解、事实问答方面等多项能力的多项模型评测中展示出了较为先进的能力表现。
同样,在商业模式上,不同于GPT-4的闭源,源2.0采用了全面开源的商业模式。
说到闭源与开源,从计算机科学与人工智能的发展历程来看,开源始终对软件技术乃至IT技术发展有着巨大的推动作用。
以目前全球移动产业和市场中闭源的苹果iOS与开源的谷歌安卓生态比肩为例,试想一下,面对苹果封闭的iOS生态,当时后发的谷歌,如果效仿苹果,采用同样闭源的方式与其竞争结果会怎样?至少当时强大如微软,因采用闭源的Windows Phone与iOS硬刚,但最终铩羽而归就已经很说明问题。
同理,在大模型领域,面对GPT-4的闭源,开源开放应是国内促进AI技术发展和商业落地的重要手段,因为大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代,并推动AI开发变得更加灵活和高效。同时,开源开放还有利于推进“技术+行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。
此外,在11月29日的AICC 2023人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及1~2条示例,由源团队来进行数据准备、模型训练并开源。
对此,刘军将大模型的开源开放模式通俗地形容为:人人为我,我为人人。而具体到浪潮信息,早在源1.0发布的时候,就通过开源,将大量相关的课程、视频会议以及相应的案例、代码等贡献出来,供业内参考、学习和使用。据不完全统计,今天国内的大模型中,有超过50家的大模型,实际上使用的浪潮信息开源的数据集。
至于大模型落地行业方面,此前浪潮信息推出的开放的元脑生态,目前也已经聚合了众多国内做大模型的左手伙伴和赋能到最终行业用户的右手伙伴(例如SV集成商)。此外,今年8月,浪潮信息还发布了大模型智算软件栈OGAI“元脑生智”(Open GenAI Infra),其秉承全栈全流程、算力充分释放、实战验证提炼的设计原则,为大模型研发与应用创新全力打造高效生产力,加速生成式AI产业创新步伐。
看未来,鉴于目前业内仍没有完全开源可商用的千亿大模型,业内认为,随着源2.0的发布,其有望以繁荣的开源模型生态、优越的开源大模型性能和优秀的指令微调策略(微调算法、微调框架等),化解大模型落地的算力、算法、数据挑战,从而为全球开发者、研究机构、科技企业提供坚实的底座和成长的土壤,释放生产力,激发无限创新力。
写在最后:IDC预测,到2026年,全球AI计算市场规模将增长到347亿美元,生成式AI计算占比从2023年的11.9%增长到31.7%。为此,从国家到地方,关注通用人工智能的系统建设,探索通用人工智能新路径,推动创新场景应用,把大模型下沉对接到广阔的垂直市场,以需求拉动供给端技术进步,并加速大模型向生产力和实体商业价值的转化已经成为产业各界的共识。
接下来就是大模型相关产业界所面临的Know How的挑战,而上述源2.0的发布,无疑为如何应对这些挑战提供了很好的示范和借鉴,更让业内看到了国内企业,以算力系统+算法基座创新,筑基“高智商”通用大模型基座算力之道,在未来追赶GPT-4,加速大模型行业落地的信心。