7月14日,华为面向AI大模型时代又有大动作,发布了两款新品,为基础模型训练、行业模型训练,以及细分场景模型的训练和推理提供存储解决方案,以更好地释放AI新动能。
华为数据存储产品线总裁周跃峰发布AI存储新品
就在7天前的华为开发者大会2023(Cloud)上,华为发布了面向行业的大模型系列——盘古大模型3.0,可以提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配不同场景、不同时延、不同响应速度的行业多样化需求,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力。
自2022年11月ChatGPT问世以来,以预训练大模型等为代表的新兴技术掀起加速了新一代人工智能的发展,全球掀起AI大模型军备竞赛。在这场竞赛中,华为除了面向行业应用推出系列大模型,也做起了AI淘金时代“卖铲人”。
AI淘金时代,华为做起“卖铲人”
AI大模型时代的三要素:算力、算法和数据。在华为数据存储产品线总裁周跃峰看来,数据以及数据的质量决定人工智能智力的高度。发展人工智能产业,要重视数据和信息的数字化记录。
据周跃峰观察,国外ChatGPT大模型的训练效率更高一些、容易一些,其核心的原因就在于在数字化阶段,更多的英文资料被记录了下来,远远多于中文资料。而我国发展了大量的数据中心,算力相对来说比较多,而存力还比较少,很多高价值的信息没有被记录下来,长此以往这将会制约我国人工智能产业的高质量发展。
而对于企业而言,在开发及实施大模型应用过程中,由于数据存储的问题也面临四大挑战。周跃峰指出,首先,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右;其次,多模态大模型以海量文本、图片为训练集,当前海量小文件的加载速度不足100MB/s,训练集加载效率低;第三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Checkpoint机制恢复训练,故障恢复耗时超过一天;最后,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。
在7月14日的发布会上,华为顺应大模型时代AI发展趋势,针对不同行业、不同场景大模型应用,推出OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。
周跃峰介绍,OceanStor A310为智能数据而生,可以实现从数据归集、预处理到模型训练、推理整个的存储支撑的工作。OceanStor A310支持96闪存盘,带宽达到400G/秒。也就是说,每秒钟可以传200多部高清的电影。IOPS达到1200万,最高支持4096个节点的横向扩展。而通过近存计算实现近数据预处理,减少数据搬移,预处理效率提升30 %。
而FusionCube A3000训/推超融合一体机,则面向行业大模型训练/推理场景,针对百亿级模型应用,集成OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件,为大模型企业提供一站式的部署交付体验。
周跃峰介绍,该一体机的训/推节点与存储节点均可独立水平扩展,以匹配不同规模的模型需求。同时FusionCube A3000通过高性能容器实现多个模型训练推理任务共享GPU,将资源利用率从40%提升到70%以上。
华为数据存储产品线总裁周跃峰表示:“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。华为数据存储未来将持续创新,面向AI大模型时代提供多样化的方案与产品,携手伙伴共同推进AI赋能千行百业。”
华为天才少年透露“秘密武器”
大模型的训练和应用涉及海量数据,大模型厂商尤为关注的是如何保障数据的安全流转问题。在当天的发布会上,华为天才少年、华为苏黎士研究所数据存储首席科学家张霁,对此进行了深入解读。他表示,AI大模型与前些年非常火爆的深度学习相比,除了模型本身发生一些变化以外,最大的特点就是数据量变得更大。从很大程度上来讲,高质量的数据决定了AI大模型的上限,而算法和算力只是去无限逼近这个上限。
张霁介绍,数据存储作为数据安全的第一道防线,企业如何能够安全地把数据从不同的地点、不同的节点归集到一个地方,面临非常大的挑战。因此,华为正在研究一种“数据方舱”技术,将数据在流转的过程中把数据以及它的相关凭证、隐私、权限等信息跟数据放在一起进行流转。当这些数据到达了数据归集地之后,这些数据在方舱当中就能得以安全地执行和保护,从而做到数据的极致安全。
目前,华为的“数据方舱”正在跟中信银行、云上贵州等一些客户做联合的技术创新和实践,华为希望通过“数据方舱”能够让来自不同行业的高价值数据实现安全流转。周跃峰认为:“只有数据能够安全流转,AI包括AI大模型,未来才可以得到长久的持续的发展。”
而在数据安全流转之外,大模型厂商还普遍关注AI大模型在实施过程中的成本问题,这关乎数据如何能够快速地接入AI大模型,高效完成储存、训练、推理等一系列动作。
张霁表示,企业如果说需要去快速接入AI大模型,一是在基础大模型上做二次的训练,这对GPU的消耗非常高,会导致成本非常高。而最关键的是它需要有专人去维护所在的垂直专业的领域知识,非常耗时耗力;二是得益于万物皆向量的理念,华为面向AI大模型去研究向量存储技术。向量存储技术类似于AI外挂一个存储,可以把企业最新的垂直化的数据向量化进行存储和检索,从而大幅度去降低企业接入和使用AI大模型的难度。
张霁介绍,向量存储技术当前还处于萌芽但快速发展的阶段,华为在海外已经进行了非常前沿的布局,例如为了解决向量存储当中对数十亿甚至上百亿的向量如何快速的进行模糊查找、聚类的处理,华为苏黎士研究所和华为海思硬件团队进行了联合创新,通过近存计算、软硬协同的方式,去加速向量的检索。
张霁表示,华为也利用本地的资源,跟欧洲的一些顶尖高校进行产学研合作,希望未来在以数据为中心的体系结构变革的大背景下,利用算法和架构协同的方式,通过存内计算、新型的数据存储格式,去真正释放数据的价值,卸载部分GPU和CPU服务器的算力,节省无效的数据搬移带来的能耗问题,从而最终推动数据新范式的快速的发展。
周跃峰称,“数据方舱”和向量存储技术,正是华为面向AI大模型时代正在研发中的“秘密武器”。
采写:南都湾财社记者 程洋