AI大模型时代“稳进”，需要先进存力“快进”

作者：科技正能量发布时间：2023-08-28

人工智能学科源起于1956年，之后在半个世纪的发展中几乎停滞不前，算力和数据的发展远远落后于算法。在2000年进入互联网时代后，算力的制约被打破，而随着人工智能步入千行百业，和大模型时代的开启，高质量的数据似乎正成为人工智能发展的最后“瓶颈”。

近日，在全国高性能计算学术年会（CCF HPC China 2023）上，华为OceanStor Pacific分布式存储荣获本次大会“AI 存力底座最佳创新奖”。

事实上，“AI存力”这一理念的出现，也从侧面体现出数据之于AI价值的水涨船高。

数据决定AI智能高度

人工智能的进化，是不断收集和分析数据的过程。数据作为信息的载体，是人工智能学习和理解世界的原料。通用智能作为人工智能发展的终极目标，能够自主地学习、理解、推理和解决问题，其最大的驱动力是数据。

那么，是不是数据越多，AI就越智能？是不是只要有大量的数据，AI就能够发挥超越专家的作用？

以医学领域AI系统为例，医院的很多诊断案例其实并没有单一的正确答案。在医学诊断中，任何一组症状都有一系列不同概率的可能病因，所以AI的辅助决策，能够帮助临床医生缩小可能的病因集，直到找到解决方案。这个案例当中医学AI依赖的并不是大量的数据，而是准确的高质量数据，这才能够让AI在“筛查”时不会漏过真正可能的病因。

这就是数据质量决定AI智能高度的典型示范。

在AI行业中，也一直有着"垃圾进、垃圾出 (garbage in, garbage out)" 的共识 —— 即，如果没有高质量的数据输入，则无论多么先进的算法、多么庞大的算力都无法带来高质量的成果。

今天，我们站在大模型时代的风口，AI大模型如雨后春笋，层出不穷。华为盘古、讯飞星火、紫东太初等中国一批大模型正在快速发展，打造跨行业通用化人工智能能力平台，赋能行业数字化转型。

按照中国科技部新一代人工智能发展研究中心5月底发布的《中国人工智能大模型地图研究报告》显示，中国10亿参数规模以上的大模型已发布79个。“百模大战”的格局已成，但也为大模型的发展提出了深层次的思考：

基于小规模数据建立的模型，其表达能力受限于数据规模，只能进行粗粒度的模拟与预测，在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型。

这又意味着：数据数量级同样决定AI智能的高度。而无论数据的质量，还是数据的数量级，这都是“AI存力”建设需要重点关注的范畴。

大模型时代，数据面临的挑战

随着AI走向大模型、多模态，企业在开发或实施大模型应用还面临很多挑战。

首先，数据预处理周期长。由于数据分布在不同的数据中心、不同的应用，不同的系统中，存在归集慢等问题，导致预处理百TB数据的周期，就长达10天左右，系统的利用率从初始阶段就亟需提升效率。

其次，训练集加载效率低。如今大模型的规模越来越大，达到千亿甚至万亿的参数级，训练需要海量的计算资源和存储空间。比如多模态大模型以海量文本、图片为训练集，但是当前海量小文件的加载速度，这就导致训练集加载效率偏低。

此外，还面临大模型参数频繁调优，训练平台不稳定，平均约2天出现一次训练中断的挑战。需要Check- point机制恢复训练，故障恢复耗时就要超过一天，对业务连续性提出很多挑战。

要兼顾数据的质量和数量，构建大容量、高性能的存力底座，俨然成为了AI大模型时代致胜的关键。

存力底座成为AI时代的关键

随着大数据、AI等技术手段与HPC结合，HPDA是更高效实现数据价值的新形式，通过卷积更多历史数据参与，利用更多元异构算力和分析方法，以进一步提升分析精度。这是一个由科学研究迈向科研智能的新阶段，AI技术将加速前沿成果落地。

如今基于“数据密集型科学”的科研新范式，更多与大数据知识挖掘及AI训练推理技术结合，通过计算与分析获得新知识和新发现，这也意味着对于底层数据基础设施的需求将发生根本性改变。无论是HPC还是AI的未来发展，面对数据的挑战，都需要构建先进的存力底座。

解铃还须系铃人，来自数据的挑战，一定要从数据存储创新上来解决。

本次获奖的AI存力底座，是基于OceanStor Pacific分布式存储所打造，秉承AI Native设计理念，一套存储覆盖AI各环节。AI 系统对存储的挑战是全面的，如数据计算如何加速，数据存储如何管理，数据存储和数据计算之间如何高效流通等等。如采用“大容量存储 + 高性能存储”的组合，保障存储资源调度和协调的一致，每一个环节的高效运转，才能完全释放 AI 系统的价值。

OceanStor Pacific分布式存储是如何表现其核心能力的呢？

首先，技术架构业界独创。一套存储支持无限横向扩展，混合负载高性能，既支持小文件的高IOPS，也能支持大文件的高带宽读写，性能层、容量层数据智能自动分级流转，实现数据归集、预处理、训练、推理的AI全流程海量数据存储管理，具备与HPC、大数据同源数据分析能力。

其次，业内最佳效率提升。存储具备面向数据范式的创新，一是数据编织，即通过GFS全局文件系统，接入分散在各地域的原始数据，实现跨系统、跨地域、跨多云的全局统一数据视图和调度，简化数据归集流程，二是近存计算，通过存储内嵌的算力实现近数据的预处理，减少无效数据搬移，同时降低预处理服务器等待时间，预处理效率显著提升。

事实上，“百模大战”还远远不是AI大模型发展的“标志”，未来千行百业都将通过AI大模型的能力来提升数字化转型的深度，数据基础设施的建设还将进一步提速，而OceanStor Pacific分布式存储在技术架构的创新和最佳效率的表现，证明了自己是行业的首选。

我们知道，数据已经是与土地、劳动力、资本、技术并列的新型生产要素，过去数字化市场中的很多传统定义和运行模式都将被改写，唯有存力先行，才能保证数据驱动的AI大模型时代稳步向前。

AI大模型时代“稳进”，需要先进存力“快进”

推荐体验

相关资讯

华为：构筑先进AI存力底座，引领时代更创造时代

以进化对抗内卷：AI时代先进存力的跃迁路径

先进存力｜Sora爆了，全闪存储要火

先进存力｜携手智元机器人，加速具身智能进化！

大模型下沉，汽车需要存算一体芯片｜超级观点

近期资讯

强大的壳-Shell Script

Karmada v1.12 版本发布！单集群应用迁移可维护性增强

【算法】被围绕的区域

flutter 开发笔记（七）：音视频

IDEA插件

《Move 学习》- "Hello, Move!" 示例

JavaScript 中的 `this` 解释

Electron应用实践——前端该如何开发桌面应用

探索HarmonyOS Next API 13 ：Camera API 照相机功能实战

DataCap MongoDB Driver: 全面解析MongoDB在DataCap中的使用指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响