ChatGPT问世一周年，AI世界走向何方？中国“开源大模型新王者”出现了

作者：头部科技发布时间：2023-11-30

ChatGPT

文 | 木青

国内首个全面开源的千亿模型出现了。

11月27日，浪潮信息发布“源2.0”基础大模型，包括1026亿、518亿、21亿等三种参数规模的模型，全部开源。

开源地址：https://github.com/IEIT-Yuan/Yuan-2.0

“全面开源”四字，分量几何？这要看大模型自身的含金量，也要看开源目前对于国内AI大模型生态及整个产业意味着什么。

放眼全球，做到“全面开源”的LLM也实在稀少，在国际市场，OpenAI和谷歌都选择了闭源来保证自家大模型的优势地位，Meta率先走上了开源的道路。

LLaMA开源后，迅速吸引了大量开发者，“羊驼家族”不断壮大，如今基于LLaMA开发的很多产品，也已经能够达到匹敌GPT3.5的性能。

但哪怕是7月升级版的LLaMA 2，其参数量也“只是”130亿，而“源2.0”这一千亿级别参数量的大模型开源后会有怎样的效果？

现在很难预测完全，但必然会是一个New world。

源2.0能力评测，多项测试结果已超ChatGPT

或许要解释千亿模型的威力之前，有必要先诠释一个在LLM世界中出现的独特现象：涌现。

今年10月，OpenAI华人科学家Hyung Won Chung就曾一场演讲中提到：大语言模型只有到了一定规模，某些能力才会显现。

因此参数规模决定了大语言模型的能力上限。比如，之前小模型在一些任务中成功率很低接近0%，或者完全取决于随机性，然而这些任务一旦大模型应用上，“就像某些能力突然显现一般”，成功率骤然提升，人们将这种现象称之为「涌现」。

客观来看，百亿参数是模型具备涌现能力的门槛，千亿参数的模型具备较好的涌现能力。

由「涌现」现象出发，我们也不应该轻言“它不行”。相反，我们应该思考“它还没行”。一旦模型规模扩大，许多结论都会发生改变。

来看下达到千亿级别参数的“源2.0”涌现后的能力。浪潮信息在业界公开的数据集上进行了代码、数学、事实问答等方面的能力测试。

测试内容包括：

GSM-8K：评估生成式模型的基准测试，包含8000个多样化的自然语言生成任务
AGIEval-Gaokao：评估AI模型在高考语文题目理解和推理能力
MathCloze：评估AI模型在数学填空题解题能力
AGIEval-Gaokao MathQA：评估AI模型在高考数学题目解题能力
TruthfulQA：评估AI模型在真实问题回答的可信度
HumanEval：评估AI模型的编程能力

首先是内容生成。

大模型通常是基于自然语言的语料来训练的，因此具有强大的语言理解和生成能力。

那源2.0在多轮对话，成语解释，内容生成，知识问答等方面表现如何？

问：请解释一下乌鸦反哺。

问：出自哪里？

难不倒它，再让它用乌鸦反哺写一首七言绝句。

点评：这首诗通过对自然界动物的比喻，以及自然元素的描绘，表达了对亲情、恩情的珍视和回报之心，既切合主题又生动有趣。

在内容生成上，源2.0稳定发挥。那在公认短板数学和代码测试中，源2.0能否继续保持呢？

数学

这是一道高考数学填空题。

以下是源2.0的解题思路：

从解题过程中可以看出，源2.0的推理过程逻辑清晰而且具备扎实的基础知识。

事实上，在AGIEval高考数学测试中，源的成绩也优于 ChatGPT。

代码生成

在代码生成上，源2.0的表现也让人印象深刻。

问：这个函数接收一个列表l，返回一个列表l'，满足以下条件：l'与l在不能被3整除的索引处完全相同，而在能被3整除的索引处的值等于l中对应索引的值，但是排好序。

这个题目容易出错的地方包括，忽略了不能被3整除索引处的值要完全相同这个要求，没有注意到排序是只针对能被3整除索引处的值进行的，以及排序的时候只考虑了能被3整除索引处的值，忘记了其他索引处的值。

但是，源2.0不仅理解了题目，还给出了正确的代码。

生成不能被3整除索引的列表non_divisible和能被3整除索引的列表divisible，保证了不会忽略不能被3整除索引处的值。

只对divisible进行排序，确保了只有能被3整除的索引的值被排序。

分别遍历non_divisible和divisible拼接结果，保证了不能被3整除的索引处的值不会被错误排序。

但是，源2.0表现究竟如何，仍需要量化数据进行评判。根据多个数据集测试结果显示，源2.0的表现都超过了ChatGPT。

而采用自洽性（Self-Consistency， SC）方法的源2.0表现更是大幅提升，靠近GPT-4。

打造更“高智商的”通用大模型，浪潮信息AI三大要素齐创新

这样可以媲美GPT-4的大模型，参数量跃迁上千亿台阶，其训练方法必须实现创新。

虽是老生常谈，但免不了要从人工智能三大基本要素——算力、算法、数据入手。以 GPT-3 举例，GPT3 的每个参数基本上只训练了 1-2 个 Token；DeepMind 的研究则表明，如果想把一个大模型训练充分，需要把每个参数量训练 20 个Token。

换言之，当前的千亿规模大模型则需要用多 10 倍的数据进行训练，模型性能才能达到比较好的水平。

OpenAI团队的一篇经典论文《Scaling Laws for Neural Language Models》，就曾明确指出，模型性能很大程度上取决于模型规模，后者由三个因素组成：模型参数的数量（不包括嵌入）、数据集的大小和用于训练的算力。

由上图显示，随着我们增加用于训练的算力、数据集和模型参数，语言建模性能会平稳提高。

而为了获得最佳性能，所有三个因素必须同时扩大。

源2.0基础大模型则针对性地提出了新的改进方法并获得了能力的提升。

首先是算法方面，源2.0提出并采用了一种新型的注意力算法结构：局部注意力过滤增强机制(LFA：Localized Filtering-based Attention)。

传统的自注意力机制在处理输入序列中的token时，没有预设词与词之间的依赖关系，例如局部关系。

比如这样一个句子，我想吃中国菜，因为这样一个句子输入到模型里边的时候，首先要进行分词，如果分词之后的话，它可能会分成这种形式：

但在自然语言中，事实上比如中国和菜，这两个词它事实上是有着更强的关系，更强的局部依赖性的。

LFA正是通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确、更人性，提升了模型的自然语言表达能力，进而提升了模型精度。

研究团队对模型结构的有效性进行了消融实验，相比传统注意力结构，LFA模型精度提高3.53%。

而数据方面的创新更是加大量，提升数据精度质量。这需要解决一个现实问题，即当前大模型训练所需要的数据集的增速，要远远大于高质量数据生成的速度。

源2.0通过使用中英文书籍、百科、论文等高质量中英文资料，降低了互联网语料内容占比，结合高效的数据清洗流程，为大模型训练提供了高质量的专业数据集和逻辑推理数据集。

为了获取中文数学数据，浪潮信息的研究团队清洗了从2018年至今约12PB的互联网数据，但仅获取到了约10GB的数学数据，投入巨大，收益较小。

为了更高效地获得相对匮乏的高质量中文数学及代码数据集，源2.0采用了基于大模型的数据生产及过滤方法，在保证数据的多样性的同时也在每一个类别上提升数据质量，获取了一批高质量的数学与代码预训练数据。

有了足够的数据，就需匹配对应的算力，算力依旧是支撑大模型智力水平提升的核心驱动力——需要用“足够大”的算力，去支撑起“足够精准”模型泛化能力。因此，一定程度上也可以说有多少算力投入，就有多少智能涌现。但现在我们还需思考下半句，“如何更好地将算力匹配智能涌现”。

因此，在算力方面，相比源1.0采用了张量并行+流水线并行+数据并行的3D并行策略，源2.0在3D并行策略的基础上提出了非均匀流水并行+优化器参数并行(ZeRO) +数据并行+Loss计算分块，有效降低了大模型对节点内芯片间通信带宽的需求，算法具有更广的适应性，让模型在流水并行各阶段的显存占用量分布更均衡，避免出现显存瓶颈导致的训练效率降低的问题。

该方法显著降低了大模型对芯片间P2P带宽的需求，为硬件差异较大训练环境提供了一种高性能的训练方法。

浪潮信息在探索中前进：开源先行，构建基座大模型，通好走向行业的路

去年的今天（11月30日），ChatGPT横空出世，世界变化开始加速。

一年的功夫，仿若一甲子的沧海桑田。据不完全统计，中国大模型赛道上，已经诞生了188+个模型，大模型数量暴涨。

作为全球制造大国，我国拥有世界上最完备的工业体系和最丰富的应用场景与数据资源，为大模型在垂直领域落地提供了“肥沃土壤”，在发展行业大模型上具有“先天优势”，这样的发展窗口不该错过，也不能错过。

当前大模型初步实现了智能“涌现”，但幻觉、可解释性问题仍有待解决。通用大模型犹如大模型产业的地基，地基的深度和强度决定大厦的高度，其通过自然语言去学习世界领域的专业知识，并将其压缩至大模型之中。

因此在产业发展初期，中国大模型的“百花齐放”是利好的，“源2.0”模型的开源，同样希望能够为中国大模型生态体系的繁荣壮大，增添重要的一笔。

浪潮信息高级副总裁刘军接受头部科技采访时表示：大模型开源能够带来的、最本质的好处就是让整个产业能够协同地发展，回顾过去所有成功的开源项目，实际都是整个开源社会的共同贡献。所谓「开源」就是我为人人，人人为我。

作为最早布局大模型的企业之一，早在2021年“源1.0”发布后，浪潮信息就全面启动开源开放计划，通过强大的通用智能和全栈的工具链服务能力，助力千行百业的开发者孵化出更多的爆款应用。

例如，浪潮信息还将“源”大模型的智能力与 To B 领域复杂的服务场景进行深度融合，构建专家级数据中心智能客服大脑，荣获哈佛商业评论鼎革奖。

更重要的是，在“源1.0”大模型的研发过程中，浪潮信息的 AI 团队逐步建立了完整的从公开数据爬取到数据清洗、格式转化、数据质量评估的完整流程和工具链，并完成了 5TB 高质量中文数据集的清洗工作。

“源”大模型的数据集和清洗经验和帮助国内不少 AI 团队提升了其大模型的性能表现。

与此同时，基于“源”大模型的研发经验，2022年以来，浪潮信息协助多个客户，将大模型训练GPU峰值效率从30%左右提升到50%，大大加速模型训练过程。

在软硬件技术层面，浪潮信息长期致力于人工智能算力基础设施产品的研发，其中 AI 服务器方面，以丰富的产品和领先的性能，市场份额常年全球领先。

今年8月，浪潮信息正式发布大模型智算软件栈 OGAI“元脑生智”（Open GenAI Infra），秉承全栈全流程、算力充分释放、实战验证提炼的设计原则，为大模型研发与应用创新全力打造高效生产力，加速生成式 AI产业创新步伐。

浪潮信息人工智能软件研发总监吴韶华表示：“未来，我们将重点围绕开源社区来做建设，通过持续开源基础大模型的形式，尽可能广泛地赋能更多的用户场景，扩展基础模型的能力边界。”

AIGC的元年接近尾声，而大模型走向产业的道路才刚刚开始，探索仍在继续。

点这里👇关注我，记得标星哦～

ChatGPT问世一周年，AI世界走向何方？中国“开源大模型新王者”出现了

推荐体验

相关资讯

ChatGPT一周年：开源语言大模型的冲击

ChatGPT一周年

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

ChatGPT3.5问世一周年，生成式AI热潮剑指何方：多模态、生态融合……

ChatGPT 发布一周年

近期资讯

马斯克点赞！宇树科技B2-W机器狗火遍全网

第一批符合新版工业机器人行业规范条件企业名单发布，博实股份、埃斯顿、埃夫特等上榜

高效节能，华帝燃气热水器小飞翼K6：1871元享16升天然气

大厂发力AI，曾经的小龙们该何去何从？

清华用主动学习模型筛选析氢催化剂，产氢性能高于铂基商业催化剂

黑芝麻智能发布华山A2000家族芯片平台，打造全场景通识智驾标杆

消息称台积电2025年进一步调涨先进制程、CoWoS代工价格

科技赋能文化传承，文物“上云”焕发生命力

供不应求！台积电3、5nm制程和封装将最高涨价20%

自研 ERP，一门注定失败的生意

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响