当前位置:首页|资讯|AIGC|大语言模型|机器学习|人工智能

AIGC行业深度报告:Sora算力倍增,国产架构+生态崛起

作者:AIGC资源社发布时间:2024-02-21

原标题:AIGC行业深度报告:Sora算力倍增,国产架构+生态崛起

(精选报告来源:幻影视界)

01 SORA横空出世,算力需求倍增

1.1 大语言模型、文生图、文生视频加速演进

  • 大语言模型(LLM):LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM 使用基于神经网络的模型,通常运用自 然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型,GPT在此基础上引入了多模态。
  • 文生图:与大预言模型不同,多模态可以根据文字描述创建原创、逼真的图像和艺术作品。它可以组合概念、属性和样式,我们认为文 生图功能对于传统图型生成工具具有颠覆性。
  • 文生视频:多模态人工智能技术实现了从AI文生图到AI文生视频的跨越,实为解放生产力的双手,我们认为其功能颠覆 摄影、传媒、 电影制作等行业,例如Gen2。
  • SORA推开新世界的大门,文生视频加速演进:OpenAI 2月16日凌晨发布了文生视频大模型Sora,它能够仅仅根据提示词,生成60s的 连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

1.1 大语言模型、文生图、文生视频加速演进

  • Transformer架构是AI向生成式跨越的重要一步:是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性 的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM),例如ChatGPT系列中。Transformer模型旨在处理自然语言等 顺序输入数据,可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。
  • 文生图的基础采用的是Stable Diffusion架构:Stable Diffusion架构是一种自回归模型,基于扩散模型,因此训练和推理代价都很高。 它主要用于生成以文本描述为条件的详细图像,但它也可以应用于其他任务,例如修复、外绘以及在文本提示引导下生成图像到图像的 翻译。首先需要训练好一个自编码模型,然后利用编码器进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到 原始像素空间即可,整个流程类比物理学中的“扩散”。

1.2 SORA震撼发布,彻底颠覆文生视频领域

  • Stable Video Diffusion是文生图到文生视频的跨越:Stable Video Diffusion 的核心思想是将视频生成任务分解为两个阶段。首先, 它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的,类似于将一张图片逐渐“放 大”。然后,在第二个阶段,该方法使用一个条件变分自编码器(cVAE)将生成的图像序列转化为视频。cVAE 是一种生成模型,能够 学习数据分布的特征,并根据特定条件生成新的数据样本。
  • SORA震撼发布,彻底颠覆文生视频领域:而SORA模型根本区别在于,可以理解成是一种融合Transformer模型与Stable Diffusion的 一种模型,通过Transformer原理的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。GPT-4被训练 于以处理一串 Token,并预测出下一个 Token。SORA 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

1.2 SORA震撼发布,彻底颠覆文生视频领域

  • SORA具有划时代文生视频的大模型: SORA将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学 和自然语言统一起来,而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看,首先将视频压缩到一个低维度的潜在空间: 这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。
  • 我们判断SORA模型的出现,算力需求有望呈现几何倍数的递增:我们判断Patchs与token的差别在于图片与文字,然而时空间数据相 较于语言文字呈现的数据维度有着几何维度的差异,因此我们推测由于SORA,算力需求有望持续呈现几何规模的倍增,同时在信创和 AI的大背景下,国产算力有望大放异彩。

1.3 SORA模型算力空间测算

  • Transformer架构持续升级,所需参数量有望增加,然而为了方便计算,我们假设SORA应用的Transformer架构与ChatGPT Transformer 架构相同,且参数量相同,同时假设数据数据精度为FP16,假设训练10天,则需要应为英伟达H100卡数为 (4.86 x 10 ^ 13) ÷ (3 x 10 ^11) x 367.28=59499.74 ≈ 59500张。我们推算Sora架构的训练与传统大语言模型(LLM) Transformer架构的训练算力需求存在近百倍 差距。

02 全球算力架构升级战已打响

2.1.1 英伟达架构持续升级,升级迭代速度明显加快

  • 平均两年架构升级,目的是维持在GPU霸主地位:根据CSDN数据,英伟达14年期 间发布8款芯片架构,我们判断芯片架构的持续升级有望维护其在GPU市场的龙头 地位。
  • 英伟达架构升级速度明显加快:根据财联社以及SemiAnalysis消息,预计在H200 芯片架构后,B100将于2024年第三季度开始量产,部分早期样品将于明年第二季 度出货。而GH200和H200也是于2023年开始问世,同时,AMD也推出了MI300AI 算力芯片,谷歌直接表示要打造自己的人工智能基础设施,其TPUv5和TPUv5e可 用于内部培训和推理,还供苹果、Anthropic、CharacterAI等公司客户使用。我们 判断英伟达架构升级明显处于加速状态。

2.1.2 英伟达GPU的硬件核心CUDA Core与Tensor Core

  • CUDA Core和Tensor Core 构成了英伟达AI的绝对护城河:在机器学习领域,训练一个机器学习模型需要对大型数据进行筛选。但是 随着数据集的数量、复杂度和交叉关系的增加,处理能力的需求呈指数级增长。机器学习经常通过内置的CUDA core和Tensor core 阵 列来完成机器学习任务(训练和推理)。
  • CUDA Core 是用于通用并行计算任务的计算核心:可以执行单精度和双精度浮点运算,以及整数运算。它在处理广泛的并行计算任务 方面非常高效。CUDA Cores是实时计算、计算密集型3D图形、游戏开发、密码散列、物理引擎和数据科学计算的主要硬件,在机器学 习和深度学习领域,以及TB级别数据训练上,GPU也是重要核心硬件。CUDA 的广泛应用造就了GPU计算专用 Tesla GPU的崛起。
  • Tensor Core专为AI而生:Tensor Core 是针对深度学习和 AI 工作负载而设计的专用核心,可以实现混合精度计算并加速矩阵运算,尤 其擅长处理半精度(FP16)和全精度(FP32)的矩阵乘法和累加操作。Tensor Core 在加速深度学习训练和推理中发挥着重要作用。 而Tensor Core的推出是在Volta架构上推出。

2.1.2 Tensor Core 架构持续升级,龙头地位更加巩固

截至Hopper系列前,Nvidia已经发布了4代Tensor Core,我们判断Tensor架构的更新有助于英伟达巩固其在AI的龙头地位

  • 第一代Tensor cores使用VoltaGPU微架构: 第一代Tensor cores提供了FP16数字格式的混合精度计算,通过V100的640个Tensor Cores, 比早期的Pascal系列GPU相比,第一代Tensor cores可以提供高达5倍的性能提升;
  • 第二代Tensor cores使用TuringGPU微架构: 第二代Tensor cores执行速度是Pascal GPU的32倍,并且将FP16计算扩展到Int8, Int4和 Int1,从而提高计算精度;
  • 第三代Tensor cores使用AmpereGPU微架构: 第三代Tensor cores增加了对bfloat16, TF32和FP64精度的支持,进一步扩展了Volta和 Turing微架构的潜力;
  • 第四代Tensor cores使用HopperGPU微架构: 第四代Tensor cores可以处理FP8精度,在FP16、FP32和FP64计算方面比上一代A100快 三倍,在8位浮点数学运算方面快六倍。

2.1.3 从超算到智算,从HPC到AI,英伟达成为AI领域佼佼者

  • HPC面向超算市场,需要强大的计算功能:HPC通过聚合计算能力来提供比传统计算机或服务器更强大的计算性能。HPC面向的应用 领域为CAE 仿真、动漫渲染、物理化学、石油勘探、生命科学、气象环境,由于HPC应用领域面向的是更加“精细化”的市场,准确 度的要求明显超过速度要求,单精度和双精度浮点运算更加符合其要求。
  • 生成式AI引燃算力需求,AI领域计算速度要求超过精度:由于生成式AI的应用目的为“成为释放生产力”的双手,面向的是模型训练和 模型推理,其目的是赋能千行百业的人工智能应用,应用场景相较于HPC更加“通用化”,因此其对计算性的要求能力更高,对精度要 求相较于HPC较低,因此低精度(相较于HPC)更符合AI的需求。
  • HPC与AI加速融合,英伟达Tensor Core持续升级,巩固其龙头地位:目前HPC与AI呈现加速融合的态势,我们判断支持单一类型精度 运算逐渐被市场淘汰,英伟达Volta架构Tensor Core只支持FP16精度,而Hopper架构支持FP64、TF32.bfloat16、FP16FP8、INT8等 精度的计算,更符合现在市场对于生成式AI与HPC加速融合的需求。

2.2.1 英伟达AI开山之作: Volta架构

  • AI计算的开山之作Volta架构:我们判断2015年前后是AI的起源,而应用场景方 面例如语音识别、自动驾驶依旧是属于前沿技术,英伟达早在2013年未来架构 图中预透了Volta架构是Pascal的继任者。在2017年GPU 技术大会(GTC 2017) 上,英伟达 CEO 黄仁勋正式发布了新一代处理器架构 Volta,以及使用新架构 的第一款设备——适用于深度学习任务的加速卡 Tesla V100。黄仁勋在发布会 上表示,全新的 Tesla V100 专为 HPC 和 AI 的融合而设。
  • Volta架构的核心是Tensor Core的引入,Tensor Core专为深度学习而生: V100 配有 640 个 TensorCore,可提供 130 teraFLOPS (TFLOPS) 的深度学习性能。 与 Pascal 相比,可为深度学习训练提供 12 倍张量浮点运算性能,为深度学习 推理提供 6 倍张量浮点运算性能。采用是第二代NVLINK技术,与HBM2显存, 生态上支持Caffe2、mxnet、CNTK、Pythrch、TensorFlow、Theano等学习框 架。
  • 目前,根据我们的判断,英伟达V100 GPU更多的需求是放在推理侧。

2.2.2 面向AI推理的下一极: Turing架构

  • 面向AI推理的下一极:Turing架构于2018年8月推出,相较于上一代 版本最大的不同是Turing架构配备了RT Core光纤追踪技术,能够以 高达每秒10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进 行加速计算,其目的是达到电影效果的最终帧渲染。
  • Turing架构在数据中心代表是NVIDIA T4 GPU:可加速各种云工作 负载,包括高性能计算、深度学习训练和推理、机器学习、数据分 析和图形。T4基于全新 NVIDIA Turing ™架构,采用节能的70瓦小 型 PCIe 封装,针对主流计算环境进行了优化,并具有多精度 Turing Tensor核心。
  • 性价比高于V100,然而重要变化是Tensor Core升级:NVIDIA Turing Tensor Core 技术是第二代Tensor Core技术,能进行多精度 计算,可实现高效的 AI 推理。相较于Volta架构 Tensor Core只支持 FP16精度,Turing架构Tensor Core 支持精度为FP16、INT8、INT4、 INT1。
  • Turing架构的目标市场为AI推理、渲染、游戏:我们判断Turing架构 目前不仅广泛用于数据中心的AI推理侧、渲染侧,例如T4系列,目 前,根据我们的判断,T4是市场上最多的推理显卡,已经广泛应用 于数据中心的建设,此外更多的产品应用于消费级显卡中,例如较 为熟知的GeForce RTX 2060系列等。

2.2.3 英伟达突破性创新,AI龙头由此启航:Ampere架构

  • 跨时代巅峰之作品Ampere架构,采用第三代Tensor Core技术:Ampere 架构于2020年5月发布,NVIDIA A100 Tensor Core GPU 可在各个规模下 为AI、数据分析和高性能计算(HPC)应用提供出色的加速性能。 NVIDIA A100 的深度学习运算性能可达 312 teraFLOPS(TFLOPS)。其深 度学习训练的Tensor 每秒浮点运算次数(FLOPS)和推理的Tensor 每秒万 亿次运算次数(TOPS) NVIDIA Volta™ GPU的20倍,其Tensor Core全面 支持FP64、TF32、FP16、INT8、INT4、INT1等精度。由于其出色的性 能与支持精度,因为我们认为其具有跨时代的意义。
  • Ampere同样采用NVlINK与高带宽显存来提高其性能:A100中采用的 NVIDIA NVLink可提供两倍于上一代的吞吐量。此技术可将多达 16 个 A100 GPU互连,并将速度提升至600GB/s。高带宽显存(HBM2E), A100 提供超过 2TB/s 的超快GPU显存带宽, 并将动态随机存取存储器 (DRAM)的利用效率提高至95%。
  • Ampere由于其出色的性能被广泛应用于AI训练市场:我们判断由于生成 式AI的爆发,英伟达A100架构芯片供不应求,同时造就了AI龙头的启航。
  • 生态方面:其支持多种深度学习框架,例如Pythorch、Tensor Flow、 Mxnet等,且支持2000余款的GPU加速应用。

2.2.4 采用Transformer架构,掀起新一代加速浪潮: Hopper架构

  • Hopper架构掀起新一代加速浪潮,变革AI训练:2022年3月22日英 伟达发布全新GPU架构Hopper架构。H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件, 为小型企业到大规模统一 GPU 集群提供高效的可扩展性。
  • Hopper架构超强性能,可加速所有精度:H100 进一步扩展了 NVIDIA 在推理领域的市场领先地位,其多项先进技术可将推理速度 提高 30 倍,并提供超低的延迟。第四代 Tensor Core 可加速所有精 度(包括 FP64、TF32、FP32、FP16和INT8)。Transformer 引擎可 结合使用 FP8 和 FP16 精度,减少内存占用并提高性能,同时仍能 保持大型语言模型的准确性。
  • 性能领先,应用广泛,我们判断其广泛应用于训练市场:英伟达自 推出 Tensor Core 技术以来,其GPU 的峰值性能提高了60倍,推动 了 AI 和 HPC 计算的普及化,我们判断目前Hopper系列依旧是英伟 达核心产品,全球市场依旧供不应求。

2.5 各AI训练卡参数规格一览,国产算力华为已具备性价比

03 国产算力生态崛起

3.1 CUDA开启英伟达最强生态,形成AI芯片护城河

  • 我们判断,AI芯片单卡性能固然重要,而最重要的依旧是集群能力与产品生态。因此考验一个公司的生态力(开发者人数)显得尤为重要。
  • CUDA的NVIDIA创建的并行计算平台和编程模型,开启英伟达绝对护城河。 CUDA是一种并行计算平台和应用程序编程接口(API),允 许软件使用特定类型的图形处理单元(GPU)进行通用目的的处理,称为通用图形处理单元计算(GPGPU)。CUDA提供了直接访问GPU虚 拟指令集和并行计算元素的软件层,用于执行计算内核。CUDA支持的GPU还可以使用编程框架,通过将代码编译为CUDA来使用HIP。 CUDA将从前多种不同的代码整合成了一气呵成的代码,这样极大的加快了开发模型的训练速度。可以简单理解,CUDA是英伟达实现 软硬件适配的一种架构,而软件生态决定了产品的适用性,计算平台决定了硬件的使用效率,CUDA是英伟达实现生态的绝对护城河
  • CUDA 生态系统发展迅速,已涵盖多种服务及解决方案。NVIDIA 于 2006 年发布 CUDA,即首款用于 GPU 通用计算的解决方案。 CUDA 充当 NVIDIA 各 GPU 系列的通用平台,因此客户可以跨 GPU 配置部署并扩展应用。目前CUDA 生态系统已涵盖软件开发工具、 多种服务以及基于合作伙伴的解决方案,通过CUDA开发的数千个应用已部署到嵌入式系统、工作站、数据中心和云中的 GPU。

3.1 CUDA开启英伟达最强生态,形成AI芯片护城河

  • CUDA在整个英伟达计算中起到决定性承上启下的作用:CUDA底层为NVCC编译器(NVIDIA CUDA Compiler),编译器即可理解为将编 程语言翻译成计算机理解的语言。而CUDA本身为一种计算平台,上面融合多种加速库、计算库,加速库和计算库多样性和性能直接影 响到底层的AI芯片的计算能力与效用,从而实现“软件定义硬件、软件加速硬件”,从而实现大幅提升AI芯片的利用率,因此英伟达强 大的CUDA生态也是形成了其难以撼动的护城河。
  • CUDA深度绑定主流学习框架:其中主流学习框架Theano、TensorFLow、MXNET、Pytorch等,新进学习框架例如LLAMA等,AI大模 型是在深度学习框架上开发而来,因此,AI算力公司的加速平台(例如英伟达的CUDA、AMD的ROCm、华为的CANN)显得尤为重要。 英伟达CUDA历经20年,我们判断其生态极强,例如,CUDA与第一梯队深度学习框架Pythorch深度绑定。

3.1 CUDA开启英伟达最强生态,形成AI芯片护城河

  • CUDA助力加速计算及深度学习:GPU通过图形应用程序的算法存在算法密集、高度并行、控制简单、分多个阶段执行等特征,英伟达 引入的CUDA使GPU超越了图形领域。同时,CUDA的框架和库可以充分发挥GPU的并行计算能力,提供高效的矩阵运算、卷积运算等 计算任务的实现,大大简化深度学习的编程工作,提高开发效率和代码质量。
  • CUDA生态合作者规模翻倍增长。根据英伟达2023财年年报,目前有400万名开发者正在与CUDA合作,而且规模还在不断扩大。英伟 达通过12年的时间达到200万名开发者,在过去的两年半里该数字翻了一番。目前CUDA的下载量已经超过了4000万次。目前,CUDA 生态已经升级到12代版本。

3.1 CUDA开启英伟达最强生态,形成AI芯片护城河

  • CUDA X-AI加速库:CUDA-X AI 是软件加速库的集合,这些库建立在 CUDA之上,提供对于深度学习、机器学习和高性能计算必不可 少的优化功能,是针对数据科学加速的端到端平台。这些库与 NVIDIA Tensor Core GPU 配合工作,能够将机器学习和数据科学工作负 载加速至高达50倍。CUDA-X AI 的软件加速库集成到所有深度学习框架和常用的数据科学软件中,且可以部署到多种设备内的 NVIDIA GPU 上,其中包括台式机、工作站、服务器、云计算和物联网 (IoT) 设备。CUDA-X AI 让开发人员能够提高工作效率,加速开发基于 AI应用程序的多步骤处理计算。
  • CUDA-X作为CUDA平台上集合层,开发人员可快速部署多领域常用库,加强CUDA软件计算平台性能,将应用层和算力层更好的适配。 CUDA-X AI已得到渣打银行、微软、PayPal、SAS和沃尔玛等顶尖公司所采用,已集成至主流深度学习框架中,如TensorFlow、 PyTorch和MXNet。全球主要云服务提供商均在使用CUDA-X AI来加速自身云服务。全球八大计算机制造商宣布其数据科学工作站和服 务器经优化后能够运行NVIDIA的CUDA-X AI库。

本文仅供参考,不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1