文 | 木青
国内首个全面开源的千亿模型出现了。
11月27日,浪潮信息发布“源2.0”基础大模型,包括1026亿、518亿、21亿等三种参数规模的模型,全部开源。
开源地址:https://github.com/IEIT-Yuan/Yuan-2.0
“全面开源”四字,分量几何?这要看大模型自身的含金量,也要看开源目前对于国内AI大模型生态及整个产业意味着什么。
放眼全球,做到“全面开源”的LLM也实在稀少,在国际市场,OpenAI和谷歌都选择了闭源来保证自家大模型的优势地位,Meta率先走上了开源的道路。
LLaMA开源后,迅速吸引了大量开发者,“羊驼家族”不断壮大,如今基于LLaMA开发的很多产品,也已经能够达到匹敌GPT3.5的性能。
但哪怕是7月升级版的LLaMA 2,其参数量也“只是”130亿,而“源2.0”这一千亿级别参数量的大模型开源后会有怎样的效果?
现在很难预测完全,但必然会是一个New world。
源2.0能力评测,多项测试结果已超ChatGPT
或许要解释千亿模型的威力之前,有必要先诠释一个在LLM世界中出现的独特现象:涌现。
今年10月,OpenAI华人科学家Hyung Won Chung就曾一场演讲中提到:大语言模型只有到了一定规模,某些能力才会显现。
因此参数规模决定了大语言模型的能力上限。比如,之前小模型在一些任务中成功率很低接近0%,或者完全取决于随机性,然而这些任务一旦大模型应用上,“就像某些能力突然显现一般”,成功率骤然提升,人们将这种现象称之为「涌现」。
客观来看,百亿参数是模型具备涌现能力的门槛,千亿参数的模型具备较好的涌现能力。
由「涌现」现象出发,我们也不应该轻言“它不行”。相反,我们应该思考“它还没行”。一旦模型规模扩大,许多结论都会发生改变。
来看下达到千亿级别参数的“源2.0”涌现后的能力。浪潮信息在业界公开的数据集上进行了代码、数学、事实问答等方面的能力测试。
测试内容包括:
首先是内容生成。
大模型通常是基于自然语言的语料来训练的,因此具有强大的语言理解和生成能力。
那源2.0在多轮对话,成语解释,内容生成,知识问答等方面表现如何?
问:请解释一下乌鸦反哺。
问:出自哪里?
难不倒它,再让它用乌鸦反哺写一首七言绝句。
点评:这首诗通过对自然界动物的比喻,以及自然元素的描绘,表达了对亲情、恩情的珍视和回报之心,既切合主题又生动有趣。
在内容生成上,源2.0稳定发挥。那在公认短板数学和代码测试中,源2.0能否继续保持呢?
数学
这是一道高考数学填空题。
以下是源2.0的解题思路:
从解题过程中可以看出,源2.0的推理过程逻辑清晰而且具备扎实的基础知识。
事实上,在AGIEval高考数学测试中,源的成绩也优于 ChatGPT。
代码生成
在代码生成上,源2.0的表现也让人印象深刻。
问:这个函数接收一个列表l,返回一个列表l',满足以下条件:l'与l在不能被3整除的索引处完全相同,而在能被3整除的索引处的值等于l中对应索引的值,但是排好序。
这个题目容易出错的地方包括,忽略了不能被3整除索引处的值要完全相同这个要求,没有注意到排序是只针对能被3整除索引处的值进行的,以及排序的时候只考虑了能被3整除索引处的值,忘记了其他索引处的值。
但是,源2.0不仅理解了题目,还给出了正确的代码。
生成不能被3整除索引的列表non_divisible和能被3整除索引的列表divisible,保证了不会忽略不能被3整除索引处的值。
只对divisible进行排序,确保了只有能被3整除的索引的值被排序。
分别遍历non_divisible和divisible拼接结果,保证了不能被3整除的索引处的值不会被错误排序。
但是,源2.0表现究竟如何,仍需要量化数据进行评判。根据多个数据集测试结果显示,源2.0的表现都超过了ChatGPT。
而采用自洽性(Self-Consistency, SC)方法的源2.0表现更是大幅提升,靠近GPT-4。
打造更“高智商的”通用大模型,浪潮信息AI三大要素齐创新
这样可以媲美GPT-4的大模型,参数量跃迁上千亿台阶,其训练方法必须实现创新。
虽是老生常谈,但免不了要从人工智能三大基本要素——算力、算法、数据入手。以 GPT-3 举例,GPT3 的每个参数基本上只训练了 1-2 个 Token;DeepMind 的研究则表明,如果想把一个大模型训练充分,需要把每个参数量训练 20 个Token。
换言之,当前的千亿规模大模型则需要用多 10 倍的数据进行训练,模型性能才能达到比较好的水平。
OpenAI团队的一篇经典论文《Scaling Laws for Neural Language Models》,就曾明确指出,模型性能很大程度上取决于模型规模,后者由三个因素组成:模型参数的数量(不包括嵌入)、数据集的大小和用于训练的算力。
由上图显示,随着我们增加用于训练的算力、数据集和模型参数,语言建模性能会平稳提高。
而为了获得最佳性能,所有三个因素必须同时扩大。
源2.0基础大模型则针对性地提出了新的改进方法并获得了能力的提升。
首先是算法方面,源2.0提出并采用了一种新型的注意力算法结构:局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。
传统的自注意力机制在处理输入序列中的token时,没有预设词与词之间的依赖关系,例如局部关系。
比如这样一个句子,我想吃中国菜,因为这样一个句子输入到模型里边的时候,首先要进行分词,如果分词之后的话,它可能会分成这种形式:
但在自然语言中,事实上比如中国和菜,这两个词它事实上是有着更强的关系,更强的局部依赖性的。
LFA正是通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。
研究团队对模型结构的有效性进行了消融实验,相比传统注意力结构,LFA模型精度提高3.53%。
而数据方面的创新更是加大量,提升数据精度质量。这需要解决一个现实问题,即当前大模型训练所需要的数据集的增速,要远远大于高质量数据生成的速度。
源2.0通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。
为了获取中文数学数据,浪潮信息的研究团队清洗了从2018年至今约12PB的互联网数据,但仅获取到了约10GB的数学数据,投入巨大,收益较小。
为了更高效地获得相对匮乏的高质量中文数学及代码数据集,源2.0采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时也在每一个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。
有了足够的数据,就需匹配对应的算力,算力依旧是支撑大模型智力水平提升的核心驱动力——需要用“足够大”的算力,去支撑起“足够精准”模型泛化能力。因此,一定程度上也可以说有多少算力投入,就有多少智能涌现。但现在我们还需思考下半句,“如何更好地将算力匹配智能涌现”。
因此,在算力方面,相比源1.0采用了张量并行+流水线并行+数据并行的3D并行策略,源2.0在3D并行策略的基础上提出了非均匀流水并行+优化器参数并行(ZeRO) +数据并行+Loss计算分块,有效降低了大模型对节点内芯片间通信带宽的需求,算法具有更广的适应性,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题。
该方法显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。
浪潮信息在探索中前进:开源先行,构建基座大模型,通好走向行业的路
去年的今天(11月30日),ChatGPT横空出世,世界变化开始加速。
一年的功夫,仿若一甲子的沧海桑田。据不完全统计,中国大模型赛道上,已经诞生了188+个模型,大模型数量暴涨。
作为全球制造大国,我国拥有世界上最完备的工业体系和最丰富的应用场景与数据资源,为大模型在垂直领域落地提供了“肥沃土壤”,在发展行业大模型上具有“先天优势”,这样的发展窗口不该错过,也不能错过。
当前大模型初步实现了智能“涌现”,但幻觉、可解释性问题仍有待解决。通用大模型犹如大模型产业的地基,地基的深度和强度决定大厦的高度,其通过自然语言去学习世界领域的专业知识,并将其压缩至大模型之中。
因此在产业发展初期,中国大模型的“百花齐放”是利好的,“源2.0”模型的开源,同样希望能够为中国大模型生态体系的繁荣壮大,增添重要的一笔。
浪潮信息高级副总裁刘军接受头部科技采访时表示:大模型开源能够带来的、最本质的好处就是让整个产业能够协同地发展,回顾过去所有成功的开源项目,实际都是整个开源社会的共同贡献。所谓「开源」就是我为人人,人人为我。
作为最早布局大模型的企业之一,早在2021年“源1.0”发布后,浪潮信息就全面启动开源开放计划,通过强大的通用智能和全栈的工具链服务能力,助力千行百业的开发者孵化出更多的爆款应用。
例如,浪潮信息还将“源”大模型的智能力与 To B 领域复杂的服务场景进行深度融合,构建专家级数据中心智能客服大脑,荣获哈佛商业评论鼎革奖。
更重要的是,在“源1.0”大模型的研发过程中,浪潮信息的 AI 团队逐步建立了完整的从公开数据爬取到数据清洗、格式转化、数据质量评估的完整流程和工具链,并完成了 5TB 高质量中文数据集的清洗工作。
“源”大模型的数据集和清洗经验和帮助国内不少 AI 团队提升了其大模型的性能表现。
与此同时,基于“源”大模型的研发经验,2022年以来,浪潮信息协助多个客户,将大模型训练GPU峰值效率从30%左右提升到50%,大大加速模型训练过程。
在软硬件技术层面,浪潮信息长期致力于人工智能算力基础设施产品的研发,其中 AI 服务器方面,以丰富的产品和领先的性能,市场份额常年全球领先。
今年8月,浪潮信息正式发布大模型智算软件栈 OGAI“元脑生智”(Open GenAI Infra),秉承全栈全流程、算力充分释放、实战验证提炼的设计原则,为大模型研发与应用创新全力打造高效生产力,加速生成式 AI产业创新步伐。
浪潮信息人工智能软件研发总监吴韶华表示:“未来,我们将重点围绕开源社区来做建设,通过持续开源基础大模型的形式,尽可能广泛地赋能更多的用户场景,扩展基础模型的能力边界。”
AIGC的元年接近尾声,而大模型走向产业的道路才刚刚开始,探索仍在继续。
点这里👇关注我,记得标星哦~
启达广告标识 2024-11-20
正华仪器 2024-11-20