当前位置:首页|资讯|清华|ChatGPT|ChatGLM

大模型报告专题:清华大学2023从千亿模型到ChatGPT的一点思考(附下载)

作者:超爱跑步发布时间:2023-12-07

原标题:大模型报告专题:清华大学2023从千亿模型到ChatGPT的一点思考(附下载)

今天分享的大模型系列深度研究报告:《大模型报告专题:清华大学2023从千亿模型到ChatGPT的一点思考》。

(报告出品方:ChatGLM)

报告共计:67页

海量/完整电子版/报告下载方式:公众号《人工智能学派》

ChatGPT带来的机遇与挑战

ChatGPT的出现表明我们在大模型上的研究还存在代差,同时ChatGPT仍然存在认知推理能力不足的问题,常识缺乏。

我们的⼀点点进展

清华、智谱联合在国产超算海洋之光上参与训出悟道1.75万亿模型。适配国产超算的DeepSpeed兼容库;系统算法协同设计,具备全机训练百万亿模型的能力。

清华和国家超算济南中心、智谱联合研发了大模型 GLM-130B普惠模型。Attention层的Softmax采用单精度,1%的损失极大稳定了训练;训练成本由GPT-3的460万美元降至600万元。

GLM-130B

GLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比,在部分评估指标上具有优势。Stanford报告的世界主流大模型评测:亚洲唯一入选模型,准确性、恶意性与GPT-3持平, 鲁棒性和校准误差在所有模型中表现最佳。

ChatGLM:创作剧本杀剧本

写一个剧本杀大纲,关于古埃及神话,现代冒险,神秘组织。标题: 古埃及神话的现代冒险

简介:本剧本杀讲述了一群现代冒险家前往古埃及探险,无意中发现了神秘组织的阴谋,他们必须联手阻止这场危机。

角色:

1.亚历山大(Alexander):一位年轻的考古学家,对古埃及文化充满热情。

2.艾米丽(Emily):一位聪明的女大学生,对古埃及神话和宗教充满兴趣。

3.布鲁斯(Bruce):一位经验丰富的探险家,擅长挖掘古代文物和宝藏。

4.珍妮(Jenny):一位神秘的女子,似乎知道很多关于神秘组织的事情。

5.神秘人(Mysterious Man):一个神秘的陌生人,经常出现在冒险家们的身边。

场景:本剧本杀的场景设定在古埃及,冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。他们也会遇到各种古埃及神灵和神话中的生物,如奥西里斯、伊西斯、托特和哈托尔等。

剧情:亚历山大是一位年轻的考古学家,他在研究古埃及文化时,发现了一些神秘的线索。他听说古埃及神话中的神灵和神话中的生物与现代世界有着神秘的联系,于是决定前往古埃及探险。

在古埃及,亚历山大遇到了艾米丽和布鲁斯,他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发现了一些古代文物和宝藏,但也遇到了一些危险。在一次战斗中,他们无意中发现了神秘组织的阴谋。神秘组织是一个古老的组织,他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些生物和神灵来发动战争,并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子,他们必须联手阳止这场危机。

珍妮是一位神秘的女子,她似乎知道很多关于神秘组织的事情。她告诉冒险家们,神秘组织可以追溯到古埃及时期,他们一直在寻求掌控世界的力量。她告诉他们,只有找到神秘的“神器”,才能阻止神秘组织的阴谋。冒险家们踏上了寻找“神器”的旅程。他们来到了古埃及的城市,找到了一些线索。但他们很快发现,他们不仅要面对神秘组织的攻击,还要面对一些神秘的生物和神灵。他们必须利用自己的智慧和勇气,才能取得胜利。最终,冒险家们找到了“神器”,并成功地阻止了神秘组织的阴谋。但他们也明白了,神秘组织永远不会停止寻找掌控世界的力量,他们必须时刻保持警惕。

结尾:本剧本杀以冒险家们成功阳止神秘组织的阴谋为背景,他们在古埃及的神庙和陵慕中冒险,寻找答案和线索他们不仅面对着危险,还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜利,也意味着古埃及神话与现代世界之间的神秘联系得到了维护。

训练出GPT-3本⾝就⾯临重重挑战……

训练成本⾼昂:训练 1750 亿参数的 GPT-3 使⽤了上万块 V100,机时费 ⽤是 460万美元,总成本据悉达到 1200 万美元。

⼈⼒投⼊极⼤:⾕歌 PaLM 540B 的团队:前期准备 29 ⼈,训练过程 11 ⼈,整个作者列表 68 ⼈ 。

训练过程不稳定:容易出现训练不收敛现象。

GLM-130B:千亿模型之旅

算法难题:千亿模型的混合精度训练⾮常不稳定,且调试困难。模型梯度爆炸,Embedding 层的过⼤梯度,Post-LN、Pre-LN 和 Sandwich-LN 的不 稳定性,DataLoader 状态种⼦恢复,以及 Softmax 和 Attention 的计算精度选择……

⼯程难题: 不同架构集群上⾼效训练千亿模型是极⼤的挑战。海光集群、A100 集群、神威超算、昇腾 910 集群;频繁的随机硬件故障、Megatron-DeepSpeed 中的 3D 流⽔线平衡调试、CUDA kernel 效率调优、训练显存紧张、数万进程 TCP 初始化、Element-wise 算⼦融合。

报告共计:67页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1