人工智能学科源起于1956年,之后在半个世纪的发展中几乎停滞不前,算力和数据的发展远远落后于算法。在2000年进入互联网时代后,算力的制约被打破,而随着人工智能步入千行百业,和大模型时代的开启,高质量的数据似乎正成为人工智能发展的最后“瓶颈”。
近日,在全国高性能计算学术年会(CCF HPC China 2023)上,华为OceanStor Pacific分布式存储荣获本次大会“AI 存力底座最佳创新奖”。
事实上,“AI存力”这一理念的出现,也从侧面体现出数据之于AI价值的水涨船高。
01
数据决定AI智能高度
人工智能的进化,是不断收集和分析数据的过程。数据作为信息的载体,是人工智能学习和理解世界的原料。通用智能作为人工智能发展的终极目标,能够自主地学习、理解、推理和解决问题,其最大的驱动力是数据。
那么,是不是数据越多,AI就越智能?是不是只要有大量的数据,AI就能够发挥超越专家的作用?
以医学领域AI系统为例,医院的很多诊断案例其实并没有单一的正确答案。在医学诊断中,任何一组症状都有一系列不同概率的可能病因,所以AI的辅助决策,能够帮助临床医生缩小可能的病因集,直到找到解决方案。这个案例当中医学AI依赖的并不是大量的数据,而是准确的高质量数据,这才能够让AI在“筛查”时不会漏过真正可能的病因。
这就是数据质量决定AI智能高度的典型示范。
在AI行业中,也一直有着"垃圾进、垃圾出 (garbage in, garbage out)" 的共识 —— 即,如果没有高质量的数据输入,则无论多么先进的算法、多么庞大的算力都无法带来高质量的成果。
今天,我们站在大模型时代的风口,AI大模型如雨后春笋,层出不穷。华为盘古、讯飞星火、紫东太初等中国一批大模型正在快速发展,打造跨行业通用化人工智能能力平台,赋能行业数字化转型。
按照中国科技部新一代人工智能发展研究中心5月底发布的《中国人工智能大模型地图研究报告》显示,中国10亿参数规模以上的大模型已发布79个。“百模大战”的格局已成,但也为大模型的发展提出了深层次的思考:
基于小规模数据建立的模型,其表达能力受限于数据规模,只能进行粗粒度的模拟与预测,在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型。
这又意味着:数据数量级同样决定AI智能的高度。而无论数据的质量,还是数据的数量级,这都是“AI存力”建设需要重点关注的范畴。
02
大模型时代,数据面临的挑战
随着AI走向大模型、多模态,企业在开发或实施大模型应用还面临很多挑战。
首先,数据预处理周期长。由于数据分布在不同的数据中心、不同的应用,不同的系统中,存在归集慢等问题,导致预处理百TB数据的周期,就长达10天左右,系统的利用率从初始阶段就亟需提升效率。
其次,训练集加载效率低。如今大模型的规模越来越大,达到千亿甚至万亿的参数级,训练需要海量的计算资源和存储空间。比如多模态大模型以海量文本、图片为训练集,但是当前海量小文件的加载速度,这就导致训练集加载效率偏低。
此外,还面临大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断的挑战。需要Check- point机制恢复训练,故障恢复耗时就要超过一天,对业务连续性提出很多挑战。
要兼顾数据的质量和数量,构建大容量、高性能的存力底座,俨然成为了AI大模型时代致胜的关键。
03
存力底座成为AI时代的关键
随着大数据、AI等技术手段与HPC结合,HPDA是更高效实现数据价值的新形式,通过卷积更多历史数据参与,利用更多元异构算力和分析方法,以进一步提升分析精度。这是一个由科学研究迈向科研智能的新阶段,AI技术将加速前沿成果落地。
如今基于“数据密集型科学”的科研新范式,更多与大数据知识挖掘及AI训练推理技术结合,通过计算与分析获得新知识和新发现,这也意味着对于底层数据基础设施的需求将发生根本性改变。无论是HPC还是AI的未来发展,面对数据的挑战,都需要构建先进的存力底座。
解铃还须系铃人,来自数据的挑战,一定要从数据存储创新上来解决。
本次获奖的AI存力底座,是基于OceanStor Pacific分布式存储所打造,秉承AI Native设计理念,一套存储覆盖AI各环节。AI 系统对存储的挑战是全面的,如数据计算如何加速,数据存储如何管理,数据存储和数据计算之间如何高效流通等等。如采用“大容量存储 + 高性能存储”的组合,保障存储资源调度和协调的一致,每一个环节的高效运转,才能完全释放 AI 系统的价值。
OceanStor Pacific分布式存储是如何表现其核心能力的呢?
首先,技术架构业界独创。一套存储支持无限横向扩展,混合负载高性能,既支持小文件的高IOPS,也能支持大文件的高带宽读写,性能层、容量层数据智能自动分级流转,实现数据归集、预处理、训练、推理的AI全流程海量数据存储管理,具备与HPC、大数据同源数据分析能力。
其次,业内最佳效率提升。存储具备面向数据范式的创新,一是数据编织,即通过GFS全局文件系统,接入分散在各地域的原始数据,实现跨系统、跨地域、跨多云的全局统一数据视图和调度,简化数据归集流程,二是近存计算,通过存储内嵌的算力实现近数据的预处理,减少无效数据搬移,同时降低预处理服务器等待时间,预处理效率显著提升。
事实上,“百模大战”还远远不是AI大模型发展的“标志”,未来千行百业都将通过AI大模型的能力来提升数字化转型的深度,数据基础设施的建设还将进一步提速,而OceanStor Pacific分布式存储在技术架构的创新和最佳效率的表现,证明了自己是行业的首选。
我们知道,数据已经是与土地、劳动力、资本、技术并列的新型生产要素,过去数字化市场中的很多传统定义和运行模式都将被改写,唯有存力先行,才能保证数据驱动的AI大模型时代稳步向前。