21世纪经济报道记者白杨 北京报道
11月27日,浪潮信息正式发布“源2.0”基础大模型,包括1026亿、518亿、21亿三种参数规模,并且全面开源。
在大模型方面,浪潮信息算是中国市场的先行者。早在2021年9月,浪潮信息就发布了源1.0大模型,该模型参数为2457亿,是当时业界规模最大的大模型。
从源1.0到源2.0,时间间隔了两年多,行业也发生了重大变化。尤其是ChatGPT的发布,引发了一场全新的技术革命,而浪潮信息作为“两个时代”的见证者,其先后发布的两代大模型,也有着完全不同的结构。
OpenAI的影响
在浪潮信息人工智能软件研发总监吴韶华看来,这轮大模型竞赛,从OpenAI发布GPT 3时就已经开始了。2020年5月,GPT 3发布,它提出了一种新的大模型训练和应用模式,即基础大模型经过训练后,通过零样本或小样本提示的形式直接赋能行业应用。
2021年8月,OpenAI进行了GPT 3.5的路演,在这个版本中,OpenAI在基础大模型之上,引入了指令微调的技术手段,并借此将模型能力和人的意图进行了对齐,让大模型能够理解人的意图,并且反馈更真实的回答。
在OpenAI不断迭代大模型产品的过程中,浪潮信息也在同步开发大模型。吴韶华表示,源1.0采用了比较经典的transformer结构,这和GPT 3的结构很类似。
2022年底,ChatGPT的横空出世,惊艳了世界,同时也带给了业界诸多的探究空间。不过,业界很快就获悉ChatGPT的训练方法——GPT 3+强化学习。对于浪潮信息来说,因为有源1.0的基础,在引入强化学习的方法后,也很快就做出了类似ChatGPT的一套系统,并且这套系统一直在迭代和改进,只不过浪潮信息一直没有对外发布。
“相比ChatGPT,GPT 4带给业界的震撼要更大”,吴韶华坦言,“ChatGPT的方法还有迹可循,但GPT 4没有对外披露,而且它展现出的能力要更全面,也更强大”。
所以2023年3月,GPT 4发布后,业界都在探究它到底是通过什么样的技术来实现这样的模型能力,浪潮信息也不例外。而这些,在今天的源2.0身上交出了答案,基于算法、数据层面的思考,浪潮信息逐渐形成了一套较成熟的模型结构改进方案。
源2.0的创新
据吴韶华介绍,源2.0的创新主要体现在三个方面。首先是算法方面,源2.0提出并采用了一种新型的注意力算法结构——局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。
LFA通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征。这使得模型可以在使用更少的训练算力、更小的模型参数的情况下,同样可以获得更高的模型精度和涌现能力。
其次是数据方面,源2.0通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,并结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。
比如为了获取中文数学数据,浪潮信息清洗了从2018年至今约12PB的互联网数据,最后获取到了约10GB的数学数据。
最后在算力方面,源2.0采用了非均匀流水并行的方法,综合运用“流水线并行+优化器参数并行+数据并行”的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题。
经过验证,源2.0大模型算力集群的线性扩展效率为47.3%,这远高于同类千亿参数大模型的算力集群线性扩展效率(业界普遍算力效率为27%-35%)。
也正是得益于这些创新,使得源2.0的模型参数虽然比源1.0更小,但是在各方面能力上,却远超于源1.0。
对于接下来的发展,吴韶华表示,针对后续的源2.5、源3.0模型,浪潮信息依然会从算法和数据两个维度入手。“算法方面我们刚刚进入一个新领域,这里值得探索的内容还很多,而在数据方面,我们会构建一套高质量数据自动生成系统,来持续为大模型提供高质量的数据。”
更多内容请下载21财经APP