当前位置:首页|资讯

Tele-FLM-1T与星辰语义大模型重磅发布,TeleAI:完成全国产化万卡万参大模型训练!

作者:CSDN发布时间:2024-12-27

人工智能作为数字化转型的核心动力,正在以前所未有的速度重塑各个行业,尤其是推动了通信行业与其他领域的深度融合。AI 赋能下,通信行业从传统的“连接服务提供者”转变为“智能解决方案的引领者”,在 AI 浪潮中扮演着至关重要的角色。

2024 年 12 月 18 日,在北京国家科技传播中心举办的重大科技成就发布会上,中国电信人工智能研究院(TeleAI)、北京智源人工智能研究院联合发布Tele-FLM-1T与星辰语义大模型平台最新科技成就。会上邀请了中国电信集团 CTO、首席科学家李学龙做项目推介,他指出,星辰语义大模型已经完成了从 1B 模型到万亿参数模型全尺寸开源,并积累了 40 多万次下载,在业界有着广泛的影响力。

AI 创新标杆,万亿参数大模型 Tele-FLM-1T

随着大模型时代的到来,行业内对 Scaling Law(规模定律)的信仰和追随就从未间断。过去的两年里,开发者们逐一见证了百亿、千亿、甚至万亿级模型的诞生,各模型展现出的智能能力也往往随模型规模的增大而提升。但是,Scaling Law 能够一直延续下去吗?是否会有上界?很显然,更大模型对应的高昂训练成本让这些问题暂时无法得到解答。因此,如何用较低的成本,训练更大的模型,值得我们去探索。

北京智源人工智能研究院研究员姜鑫指出,一般意义上的模型训练中,模型尺寸在整个模型的训练过程中是不变的,训练成本可以粗略地认为与模型大小与训练数据总量之积成正比。如果打破这样的范式,让模型随着训练的进行从小变大,那么其训练训练成本自然就会缩减。基于此,智源研究院研发了 MSG 模型生长技术(Masked Structural Growth),该技术支持横向、纵向共计四种灵活的生长方式,在 Bert-large 级别的模型上,在下游任务性能不下降的前提下成功实现了 120% 的提速。

那么,这样的生长技术能否直接应用于万亿模型的训练?智源团队首先进行了千亿级规模的生长技术验证,在成功完成千亿参数模型FLM-101B的低成本训练后,智源研究院和中国电信合作训练了万亿级的、世界上最大的单体稠密模型 Tele-FLM-1T。此次训练以52B模型为起点,以千亿模型为跳板,最终生长到万亿模型,训练全程完成了 2.3T 的 tokens,使用 112 台 A800,训练时间 4 个月。训练全程做到了零调整、零重试,最终的训练成本仅为非生长方案的9.1%。

在模型性能方面,受限于万亿模型评测所需的算力资源,开发人员着重对其中 52 B模型进行了全方位评测。英文方面,BPB 评测显示模型性能优于 Llama2-70B,接近 LLAMA3-70B;而中文方面,则显示其性能优于同期的 Qwen1.5-72B。姜鑫表示,后续开发团队对 52B 模型进行了微调,禀承“少即是多”的原则,使用 3 万条高质量指令数据,充分地激发了基础模型的性能。“最终在 AlignBench 和 TeleEval 上都实现了 GPT-4 接近 9 成左右的性能。”

星辰语义大模型,首个全国产化的开源模型

星辰语义大模型平台是由中国电信人工智能研究院打造的通用生成式语义大模型对话平台,该项目完全自主创新并实现了国内首个万亿参数大模型在全国产化集群上的完整训练。

此次发布会上,中国电信人工智能研究院语义算法研究中心高级算法总监宋双永指出,星辰语义大模型正在“引领国产AI创新”。在逻辑推理方面,目前该模型逻辑推理能力排名第一;在模型性能方面,相较于TeleChat系列星辰语义大模型,TeleChat2系列模型整体性能提升近 30%。同时,TeleChat2系列模型基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”训练完成,在保证训练精度的前提下利用多种优化手段提升模型训练效率和稳定性,在全国产化集群上实现了 GPU 同等算力计算效率的 93% 以上,同时模型有效训练时长占比达到 98% 以上。

此外,基于 TeleChat2 系列的星辰语义大模型还获得了中国计算语言学会(CCL2024)挑战赛两项冠军、NLPCC2024 中文议论文挖掘挑战赛冠军;开源方面,实现了从 10 亿到万亿参数大模型开源 + 1TB 数据开源,推动大模型技术共享,助力产业快速发展;科研创新方面,开发团队在 2024 年的 ACL、ACMMM、AAAI 以及 ISWC 等重要会刊上发表了 18 篇高水平文章。

全尺寸开源布局 适配多场景落地

TeleAI 团队通过开源促进大模型技术创新和国产化进程,并为产业持续输送领先的技术能力,加速应用落地。上半年,TeleAI 团队已陆续完成 1B、7B、12B 和 52B 参数的第一代 TeleChat 系列模型开源。最近,TeleChat2 系列也已完成 3B、7B、35B 和 115B 模型的开源,并全面提升了 Function Calling 能力。

如今,这些模型在昇思、Git、魔搭社区、Hugging Face 等平台上进行了同步开源,现已获得 5000 多颗 star,以及 40 多万次下载。凭借卓越的性能和开源生态贡献,星辰语义大模型在 Gitee 开源社区获得了“2024Gitee-GVP 最有价值开源项目”。前不久,星辰大模型还被中国信息通信研究院授予“可信开源大模型成熟度能力”认证和“2024 年度央国企开源项目典型案例”称号。

基于 TeleChat2 的星辰语义大模型榜单成绩也十分耀眼。目前,该模型处于 SuperCLUE 通用能力基准评测第一梯队,并获得 SuperCLUE 开源模型榜单国内第三、50B 以下参数模型全球第一,以及 C-EVAL 中文知识实体类榜单第一的成绩。

宋双永指出,原有参数开源模型的长文推理版本和 MoE 架构版本是团队未来的开源方向,中国电信人工智能研究院近期将开源 32K 版本,未来 128K、1M 长度的模型也会陆续开源。MoE 架构版本方面,目前也有多个版本的模型正在训练,“我们将尽量实现在推理资源和推理效果更优的 Balance,方便大家更好地使用。”

科技创新,永不止步。宋双永在会上坦言,未来,中国电信人工智能研究院将与生态伙伴、客户、开发者共同探索更多大模型与行业结合的创新路径,为千行百业的持续增长注入强劲、安全、可靠的新动力,加速数字经济高质量发展,共同携手创造更好的、美好的人工智能的生态。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1