上证报中国证券网讯(记者 温婷)4月14日,腾讯云发布面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。该集群采用最新一代腾讯云星星海自研服务器,搭载了NVIDIA H800 Tensor Core GPU,并提供业界目前最高的3.2T超高互联带宽。以新一代HCC为标志,腾讯将基于自研服务器等方式,软硬一体,打造面向AIGC的高性能智算网络。
人工智能大模型训练离不开高性能的算力集群,算力集群的“强”,由单机算力、网络、存储共同决定。而随着算力需求的增长,用于采购硬件的资金投入也呈指数级增长,给不少企业带来了巨大的现金流压力。腾讯云新一代计算集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。
据悉,HCC高性能计算集群主要面向大规模AI训练,包括自动驾驶训练、自然语言处理、AIGC大模型训练等;以专用集群方式售卖,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合CFS Turbo高性能存储、节点之间通过RDMA网络互联,给大模型训练业务提供高性能、高带宽和低延迟的一体化高性能计算。
值得注意的是,算力的提升不是单纯堆卡,而是存在“木桶效应”,计算、存储、网络一旦出现瓶颈就会导致运算速度严重下降。
此前,腾讯多款自研芯片已经量产,用于AI推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用。
去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。
目前,腾讯混元AI大模型主要覆盖NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业模型。