AI的上限究竟在哪里?在人工智能通用化全面加速的背景下,这个话题变得炙手可热。有人觉得“意识”的产生并不遥远,也有人担心真正的爆款应用难以落地。
无论是乐观派抑或保守者,都不能否认数据才是决定人工智能高度的关键要素。在驱动AI成长的“三驾马车”中,算力基础设施建设正如火如荼,算法的演进更是一日千里,而训练数据的归集与处理却遭遇瓶颈,机器学习的效率依然偏低。
从这个意义上讲,数据存储可将信息转化为语料库、知识库,是提升数据质量和处理效率的利器——因此,先进存力的构建与发展堪称大模型时代的“胜负手”,打破AI向上的天花板迫在眉睫。
面对前所未有的机遇与挑战,存储市场掀起了新一轮创新热潮,不少国产品牌参与其间,亦取得一定成果。不过,诸多基于开源Ceph的换装修补解决不了人工智能时代的数据存储难题,甚至会进一步加剧“内卷”的程度,对自主创新、先进存力的探索仍旧任重而道远。
华为公司副总裁、数据存储产品线总裁周跃峰
近日,在西宁举办的2023华为数据存储用户精英论坛上,ICT业界顶尖专家、各行业资深用户汇聚一堂,共同探讨存储产业发展方向,寻找驱动数字经济进化的崭新路径。华为公司副总裁、数据存储产品线总裁周跃峰发表主题演讲,系统阐释了华为存储二十多年来的成长轨迹,为中国存储产业的未来演进提供了更多颇具价值的选项。
在AI大时代,如何找到先进存力的跃迁路径?华为存储用亲身经历打磨出的实践标杆,值得借鉴与跟进。
在少有人走的路上,活下来,并不是件简单的事。
早在2001年,华为就雄心勃勃进入存储产业,但三年之后由于技术门槛太高且投入巨大,仅剩下4名研发人员。直到2008年华为赛门铁克成立,华为存储的探险之旅才得以延续。
尽管华为赛门铁克很快推出第一款产品OceanStor V1800,但随之而来的是2009年20%硬盘故障等问题。周跃峰回忆道:“当时的华为存储还稍显稚嫩,也正是这样的经历,让我们真正学会了尊敬存储、敬畏数据。”
起步阶段的打击并未阻挡华为做高端存储的追求。从最初“连业界高端存储的架构都看不懂”,到“逐步掌握高端存储全互联架构的精髓”,再到2019年推出A-A全互联架构的高端存储产品,华为十年磨一剑,终于站上了存储世界的最高峰。
然而,由于众所周知的原因,华为的全球营商环境在2019年5月急转而下,海外市场一夜之间降到冰点。在最艰难的时刻,正确的选择与倔强的坚持显得至关重要。
时光拉回到2015年,华为存储面临重大抉择,“是只做鲲鹏CPU的板子还是做鲲鹏和X86两块板子”——在研发团队的自我鼓励下,华为存储最终决定只做鲲鹏CPU的板子,这为应对后来的至暗时刻打下了坚实基础。
其实,华为存储对芯片自研的执着由来已久。为了将命运掌握在自己手中,华为持续投资存储的三大核心芯片:2009年推出第一款SSD主控芯片,将SSD写时延减少一半;2011年研发出接口协议芯片,使网络时延降低50%;2016年第一款基于鲲鹏系统控制芯片的OceanStor存储问世,促进性能提升2倍。
当然,来自市场的质疑声不可能一夜之间消失。据周跃峰透露,为了能“继续做存储”,华为花了一年的时间替换了1000多个器件,采用新的硬件方案确保可靠性不变,并做了一百多万行代码修改,把过去的开源社区代码全部变成自主研发的代码。值得庆幸的是,在艰难节点,华为存储得到了来自众多供应商和合作伙伴的支持,客户的信心也逐步恢复。
自主创新与保持开放并不矛盾,协调好二者的关系,可以起到相辅相成的效果。面对高端存储的技术鸿沟,华为坚持全球化研发布局,从瑞士的架构创新中心、印度研究所的NAS文件研发中心、加拿大的新数据应用到中国的成都、北京、上海、深圳,聚集4000+的存储研发顶尖人才。此外,华为存储还每年举行全球压缩算法大赛,通过广泛吸收知识与经验,让数据压缩、数据编码等技术处于领先地位。
以正确的姿势坚持下来,华为存储终于取得一系列的重大突破。这不仅体现在产品创新层面,来自全球客户的高度认可更是难能可贵。
在自主创新的道路上,总会有以开创性产品为标识的一座座里程碑:2019年,华为推出高端全闪存存储,支持SAN和NAS、Active-Active双活,满足“8坏7”的高可靠;2020年,全新OceanStor Pacific系列高性能分布式存储问世,支持多种数据协议融合,在最新的IO500榜单上领先历史最佳记录15倍以上;2021年,OceanProtect X8000高端备份存储登场,在备份速度和效率方面成为新的标杆;结合鲲鹏和昇腾形成的鲲鹏超融合产品首批通过了中国信通院的信创评估,AI训练/推理一体化的超融合产品也于今年重磅上市。
产品创新的终极目标是赢得客户认可。据了解,华为存储已服务于150多个国家和地区,得到全球25000多家用户的信任。以高端存储的试金石金融行业为例:在世界TOP100银行中,有47家银行是华为存储的客户,遍及欧洲、非洲、中东、亚太、拉美等各个区域。
在存储市场的整体生态中,除了供应链系统和客户外,第三方权威分析机构的认可也颇为重要。华为存储已连续7年位于Gartner魔力四象限领导者,两大产品分布式存储和主存储都是Gartner最佳“客户之选”。
根据IDC咨询发布的报告,未来五年,全球数据量规模将增长一倍以上,中国数据量规模仅次于北美地区,预计2026年将达56.16ZB,年均复合增长率为24.9%。
面对数据大爆炸和AI加速渗透的新环境,存储厂商既有的发展模式已无法适应新的要求,与其继续内卷,不如向外寻求机会。周跃峰认为,对抗内卷最好的方法是进化,中国存储产业一定要共同努力,创造更多的新价值。
从产品技术的角度看,基于硬盘的分布式存储已进入强内卷阶段,大力发展全闪分布式存储势在必行。华为发布的分布式存储全闪新品OceanStor Pacific 9920,以高性能、大容量闪存盘和高效数据缩减算法,促进分布式存储全面闪存化,大幅提升海量非结构化数据生产决策效率。
针对智能化时代新的应用,华为存储还开发了多读多写存储引擎,用于优化提升数据库性能并帮助客户免除应用分布式改造;面向AI大模型的迭代诉求,华为积极推动存储从简单的数据存取进化为大模型时代的知识库,并充分挖掘全闪存分布式存储在提升训练推理效率方面的潜能,全闪存数据中心的梦想已照进现实。
以更长远的视角来看,未来5~10年国内厂商要想在算力上领先难度颇高,唯有借助近存计算、向量化索引等创新技术,以存强算,构建与智算中心匹配的先进存力中心,才能实现数字经济的全面跃迁。所谓以存强算,即通过存力的升级来提升算力整体性能。例如:在AI大模型系统中,可把数据的预处理提前在存储环节做好,然后再把数据传给GPU,让GPU更高效地工作。
令人欣喜的是,国内存储产业已形成从上游介质、网络到中游存储整机,再到下游数据应用的完整产业链,“产、学、研、用”的协同进化正迎来历史性的契机。中国能否成为AI时代的领跑者?存储是否可以扮演火车头的角色?数据存储能否继5G之后成为中国的第二张科技名片?答案飘在风中,更藏在每一位奋斗者的足迹里。
Nint任拓-数字零售专家 2024-11-19