华为AI存储「求解」大模型

作者：雷峰网leiphone发布时间：2023-07-17

华为 ChatGPT

比起大模型前台的火热，人们的注意力很少关注到产业链上游。

毕竟，相较于ChatGPT流利的回答、丰富的趣味性，带来工作效率的提升，芯片、存储等硬件并不性感甚至略显枯燥。

但人们不能忽视这样一个问题：在产业分工极度明确的时代，行业进步从来不是某家厂商推动的结果，而是整条产业链的协同驱动。

ChatGPT惊艳全世界的背后，并非只有OpenAI 无数天才工程师日夜的技术攻坚。Nvidia的GPU、Samsung的存储器、Intel 的 CPU等硬件亦不可或缺。

从更底层的逻辑看，以ChatGPT为代表的大模型，本质上离不开两个要素：海量有效的数据，和强大的算力。

在人工智能的三架马车中，数据是生产原料，算力是基础设施，算法则是大模型的逻辑表示，三者的关系逐层递进，水乳交融。

毫无疑问，大模型的高楼，建立在数据和算力的基底之上。

如今，国内千行百业涌起大模型热潮，进入“群魔共舞”时代，谁能做出中国版的ChatGPT尚且未知。

但训练大模型所需要的GPU和存储器，却迎来了一次新的扩容机会。

今年5月底，GPU头部玩家 Nvidia 的市值突破万亿美金，昭示着大模型这场火，首先蔓延至产业链上游，让企业吃到了第一波技术红利。

与数据相伴相生的存储器，在大模型的推动下，也正迎来一次技术革命和市场跃迁。

一、大模型热潮下的数据：总量大、种类杂、多噪音

肇始于数据大爆炸，当前的数据量正在极速增长，从TB到PB再到惊人的ZB，如何存储海量的数据，是诸多数据中心、企业必须要解决的问题。

另一方面，以大模型为代表的多模态AI，数据结构、类型远比单模态AI复杂，数据量也更加庞大。

两大趋势相互叠加，市场对于存储的增量需求呼之欲出。

站在微观角度，企业研发大模型要经过以下几个阶段：数据归集、数据预处理、模型训练、推理应用，每个阶段都离不开存储。

在数据归集阶段，大模型所需要的数据量大且种类繁多。对于存储而言，除了要扩容装下数据，更重要的是把各种非结构化的数据整合在一起，并且安全地流转，才能为企业所用。

这并非一件易事，因为数据格式、种类以及协议各不相同，企业需要花大量人力物力来打通壁垒，甚至建立起标准和生态，技术优势和商业地位缺一不可。

而到了模型训练阶段，数据的质量决定着模型的上限。

换句话说，大模型依赖数据并不严谨，更准确的说法，应该是依赖有效数据。

以往的训练模式，XPU通常直接调用所有数据进行训练。

但在海量数据中，并非所有数据都能用得上，一些数据的存在反而会降低模型训练效果，延长训练周期。

因此，在预训练阶段，可以事先做数据预处理和归集，排除这些数据“噪音”，留下干净有效的数据，以减少模型的“幻觉”。

更进一步，由于网络波动、XPU故障，许多大模型在训练时会中断，即Checkpoint时刻，然后重启训练。恢复过程中，训练会退回到此前的一个节点，相当于有一部分会重新训练一次，这既延长了时间，又增加了XPU功耗。

该问题的关键点在于，如何快速地接触到Checkpoint的数据，恢复训练，缩短时间，这对存储的并发性、带宽传输等要求极高。

最后一关是推理应用，大模型将直接与客户面对面，是展现模型效果最有效的窗口。

这个窗口关系着用户体验，因此对于大模型的响应时间要求非常之高。

以ChatGPT为例，在一些简单的问题上，用户提问得到回答的平均时间在10s以内。如果时间太长，用户体验将会很糟糕，并且丧失对模型的信任，乃至给予差评。

这反应的是大模型推理的时延现象。通常来说，模型精度相近，时延越长，体验越差。因而缩短时延，对于大模型厂商而言至关重要，类似问题其实可以在存储上做创新，进行模型优化。

回归第一性原理，训练大模型的几个难点，本质上都是围绕如何利用好数据这一核心命题展开。

存储作为数据的基础硬件，并非仅仅只是简单地记录数据，而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

国内大模型百家争鸣，率先胜出的却是GPU厂商Nvidia。那么，按照XPU的增长逻辑，存储也理所应当能够复制Nvidia的造富奇迹。

这一制胜的法门在于，存储厂商谁能抢先解耦大模型训练的痛点，谁就能占据高地，成为第一个吃螃蟹的人。

二、AI存储三要素：精度、效率、能耗

以往，训练模型的方法简单而粗暴：大量的数据加上人工，以及强大的算力，不断调优，提高模型精度。

这种大力出奇迹的方法有用，但成本极高，一度成为许多AI公司脱不掉的旧长衫。

事实上，在AI的三架马车之中，对任何一个环节的优化，都能降本增效。而此前的训练方法，将侧重点放在了算力方面，一些公司买了强大的XPU，训练效率确实提高了，但模型训练效果仍然较差，效率低、功耗大、精度低等问题层出不穷。

根本原因在于，算力只是工具，而数据才是生产要素，只提升工具而不优化数据的做法，抓错了重点。

这就好比，巧妇难为无米之炊，一个再精干的厨师，没有好的食材，也很难做出一道精美可口的菜肴。

在类似大力出奇迹的模式下，过去几年，国内的公司积累了大量的算力资源。现在面临的问题是：如何把这些算力用上，而不至于冗余、闲置，造成浪费，并且创造价值。

华为苏黎世研究所存储首席科学家张霁认为，在算力足够的情况下，模型训练的效率已经达到极致，如果要进一步提高效率和模型效果，需要在数据上下功夫；更进一步，则是在数据依附的存储器上做技术创新。

以前文提及的数据预处理为例，过去的训练方式是XPU直接调用所有的数据训练，用完之后放回存储器，这种方式存在几个问题。

首先，XPU调动的是所有数据，这些数据存在噪音，会影响训练效果；其次，XPU在调用、放回数据时，会增加能耗及时间；最后，由于数据量过于庞大，单靠内存远远不够，因此必须加载外存的方式来存储数据，那么数据在流转时，面临安全风险。

举个简单例子：

假设手机里有一万张照片，如何快速、准确地找到其中一张？

传统的方式是，打开手机文件夹，里面会显示一万张照片，如果照片分辨率过高，手机加载图片还需要时间，然后由用户一张一张比对、查找，低效而且容易出错。

目前比较常见的是，在手机存入照片时，存储器便已经提取照片的特征值，做好数据归集。那么当用户想要查找照片时，只需输入图片的标签，就能找到符合特征的图片，缩小了查找范围。

从存储的角度看，这里面的逻辑，其实是存储器做了数据预处理，当CPU在查找图片时，根据特征值，调用的是一万张图片里的一个小的数据集，因此速度快、能耗低，准确度高，并且不占用更多的计算资源。

对于大模型而言，上面的逻辑依然成立。

在存储器端，企业可以先做数据预处理，剔除无效数据（噪音），并将数据做归集整理，那么XPU在调用数据时，则只调用需要用到的数据，速度更快，效率更高，并且XPU的利用率，也得到提升。

并且，存储器本身直接与数据接触，是数据安全的第一关。因此在存储器上对数据进行加密、保护，也能最大限度地保证数据的安全流转。

如果说大力出奇迹是靠铺算力来提升模型训练效果，那么在存储器上对数据做预处理，则是从整个模型的训练流程来缩减存算成本、提高效率和精度。

很明显，前一种方式被广泛使用并达到了极限，后一种方式正呈星火燎原之势，开始席卷整个AI行业。

三、AI存储如何让企业用上大模型？

翻开ChatGPT的发展史，从1.0迭代到4.0，OpenAI投入了数以亿计的资金，即便是当下，训练一次的成本也高达数百万美元。

说到底，现阶段大模型还是一门烧钱的生意，没有强大的资金实力和人才梯队，根本上不了牌桌。

业界存在一个观点：通用大模型只能是大厂的游戏。但这并不意味着，非大厂企业不能够拥有自身的模型。

当前，在基础大模型之上，建立行业大模型，成为普遍的商业范式。

对于缺少AI能力的企业而言，站在巨人肩膀上，无疑是一条省时省力且省钱的捷径。

这些企业的比较优势在于，靠近数据，而且这些数据真实有效。

这一优势恰恰也是劣势：很多企业不会用这些数据。

为此，企业不得不与基础大模型厂商合作，将数据开放，训练模型。

但对于部分企业，数据安全的重要性或许更甚于数据的价值。

那么，如何在保证数据安全流转的情况下，又能利用好数据，激活数据价值，扩展业务？

答案呼之欲出：在存储器上，把企业数据，通过向量的方式，转化为模型所需要的数据。并且，基于存储器本身的安全管理，可实现数据的安全流转。

这样一来，企业不但可以训练行业模型，并且只需要维护这一小部分数据，入住门槛降低了；还能将数据的所有权掌握在自身手中，安全系数也升高了。

基于此，华为推出了两款AI存储产品：OceanStor A310 ，FusionCube A3000。

OceanStor A310 是一款深度学习数据湖存储产品，可以为企业训练大模型提供从“数据归集、预处理到模型训练、推理”的存储支撑。

具体参数方面，OceanStor A310满足多协议无损融合互通，支持96闪存盘，其带宽达到400G/秒，IOPS达到1200万，最高支持4096个节点的横向扩展。

同时，OceanStor A310具备存内计算能力，内置的算力可以支持AI大模型接入分散在各个地方的原始数据，并实现跨系统、跨地域、跨多云的全局统一数据视图和调度，简化数据的归集流程。

FusionCube A3000则是一款训/推超融合一体机，集存储、网络、计算、模型开发平台于一体，内置了OceanStor A300的存储节点，面向百亿级模型应用，并支持一站式安装部署，2小时即可部署应用，并通过蓝鲸应用商城提供业界主流大模型服务。

目前，华为FusionCube A3000产品既可以一站式交付，也支持集成其他的AI大模型软件，并开发算力平台、网络等。在其内置的OceanStor A300存储节点上，厂商可以集成第三方GPU、软件平台，构建适合自身的超融合节点。

简而言之，OceanStor A310 和 FusionCube A3000，本质上是为了解决许多企业在构建行业模型时缺乏技术支撑的难题。

而且，这两款产品本身适用于不同的客户，前者适用于“存”，具备通用的能力；后者提供一站式交付能力，为企业实施大模型应用降低门槛。

AI存储的未来

从工业社会到信息社会，伴随着新技术的发展，数据的总量呈几何级数增长。

如何利用好数据成为关键，而这又与存储技术息息相关，两者相互影响、互相作用。

当大模型这类技术开始“涌现”，市场对于新的存储架构、技术的需求骤然加快。

华为苏黎世研究所存储首席科学家张霁认为，在传统以XPU为计算中心的体系下，所有的数据都围绕XPU展开，在这个过程中，数据的流转会带来能耗、效率、安全等诸多问题。

这些问题实际上可以通过数据和控制分离，利用技术创新，让一些数据绕过CPU，直接“投喂”给GPU，一方面减少CPU负荷，另一方面提高GPU利用率，缩减整个训练过程中的流程成本。

“模型训练应该回归到数据本身。”雷峰网雷峰网

有源 RFID 标签常见的供电方式一般采用纽扣电池、锂电池等。纽扣电池体积小，适用于小型有源标签，能够为标签提供稳定的电力供应，使标签可以在较长时间内（通常几年时间）持续工作。纽扣电池可以支持标签定期发送自身位置信息。锂电池则具有较高的能量密度，能为需要较大功率的有源标签提供足够的电力，像在一些大型设备的资产管理标签中，锂电池可以满足标签远距离通信和复杂功能的需求。对于一些固定位置使用的有源 RFID 读写器，通常采用外部电源适配器供电。这种方式可以提供稳定的交流电转换后的直流电，确保读写器有足够的功率来

条码刘帮主 2024-12-28

小愚测评 2024-12-28

开放式全景声效：百元蛇圣陨石C2蓝牙耳机，低频醇厚，轻盈舒适

耳机这玩意儿现在简直成了我生活中的“老铁”了，哪儿哪儿都离不开它。老实讲，我手里的耳机大多是百来块钱的那种，这个价位对我来说挺合适的，想换新的时候也不会太心疼。蛇圣陨石C2这款耳机的音质真的是让我耳目一新。低频部分醇厚得很，特别适合我这种喜欢听电子音乐的人。每当我听到那些重低音的乐曲，耳机中的音效就像是把我瞬间带到了音乐现场一样，真的很震撼。更重要的是，这款耳机设计得非常轻盈，佩戴起来几乎没有负担，长时间使用也不会感到不适。我曾经在一次长途旅行中，满怀期待地在飞机上看了一部高预算的动作大片，耳机的全景声效

源哥玩数码家电 2024-12-28

信息系统安全保障措施，质量保证措施（Doc下载完整版）

一、身份鉴别二、访问控制三、通信完整性、保密性四、抗抵赖五、数据完整性六、数据保密性七、应用安全支撑系统设计一、质量保障措施二、项目质量管理保障措施（一）资深的质量经理与质保组（二）全程参与的质量经理（三）合理的质量控制流程 1．质量管理规范： 2．加强协调管理： 3．严格合同和计划管理： 4．重视培训: 三、软件质量保障措施（一）对软件产品的测试软件开发，实施，运维等全部资料学习和获取：获取和学习所有资料集 [图片] [图片] [图片] [图

第一源码视角 2024-12-28

在线PH检测仪在工厂废水处理中的重要作用

随着工业生产的不断发展，工厂废水的处理已经成为了一个重要的环保问题。为了确保工厂废水能够达到排放标准，我们需要对废水的pH值进行实时监测和调节。本文将介绍在线PH检测仪在工厂废水处理中的应用及其重要性。一、什么是在线PH检测仪？在线PH检测仪是一种用于实时监测水质pH值的仪器，它可以安装在管道上，直接对废水进行测量。与传统的实验室PH试纸相比，在线PH检测仪具有响应速度快、精度高、操作简便等优点。二、在线PH检测仪在工厂废水处理中的重要性 1. 确保废水排放达标工厂废水的pH值直接影响到水质的优劣

迈德施检测 2024-12-28

公立医院降薪裁员，是私立医院发展的新机遇吗？

近年来，我国公立医院体系内出现了一股引人注目的现象——大幅降薪裁员。这一现象不仅引起了医疗从业人员的广泛关注，也引发了社会各界对医疗行业未来发展的深思，公立医院的“寒冬期”是否会成为私立医院的发展新机？一、公立医院降薪裁员背景公立医院作为医疗卫生服务体系的主体，承担着保障人民群众健康福祉的重要任务。然而，随着医疗改革的深入和市场经济的发展，公立医院面临着前所未有的挑战。一方面，政府对公立医院的财政补贴逐渐减少，加上医保政策的限制，医院需要通过自身运营来维持和发展；另一方面，医疗技术的不断进步和人民群众日

易诊通健康 2024-12-28

华为AI存储「求解」大模型

推荐体验

相关资讯

AI大模型引爆存储需求，华为发布AI存储新品

华为AI存储如何快速“喂饱”大模型？

AI大模型求解商业化

华为发布AI大模型存储新品，助力深度学习发展

华为发布AI大模型存储新品可支持百亿级参数规模的模型

近期资讯

【高中生物】365条高频考点，就凭它，生物也能冲上85+！

为有源标签和读写器设备提供电力支持的大咖是谁？

【高中政治】300个逢考必错知识点总结，有了它，成绩稳上85+！

COD氨氮检测仪准确性的影响因素解析

性能再升级！表中旗舰依旧不将就：览邦Watch Ultra有颜，更有料

小米终于“摊牌”，小米15跌价481元，堪称同价位机型“新卷王”

开放式全景声效：百元蛇圣陨石C2蓝牙耳机，低频醇厚，轻盈舒适

信息系统安全保障措施，质量保证措施（Doc下载完整版）

在线PH检测仪在工厂废水处理中的重要作用

公立医院降薪裁员，是私立医院发展的新机遇吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响