2023年,在马云提出“人类正从IT时代走向DT时代”的9年之后,以ChatGPT为代表的人工智能应用涌现,让数据这个没有新鲜事的低调赛道再度卷起浪花。
业内公认,数据是AI大模型的基础。与之相呼应的,为杜绝“垃圾进、垃圾出”,承担数据存储、处理、服务、安全等重要职责的数据基础设施正式走到台前——融合数据资产与AI模型的差异化竞争尚未开战,谁都不想在数据基建环节就败下阵来。
然而,数据基础设施究竟怎么建,谁又能提供更适合“中国企业体质”的数据基建?这是诸多企业数字化转型多年,依旧在探索而难解的问题。
回到2014,在定调“DT时代”的同一场活动上,马云直言“阿里巴巴是大数据的红利获利者”。
所谓大数据的“红利”,本质是通过数据看清无数事务与复杂关联背后的“真相”,依托数据支持科学的管理决策,引领高质量发展。进一步,转化为智能算法,指导机器自动做出千万种精细化的行动,例如,提供千人千面的个性体验。
几乎同期,推荐算法一跃成为阿里存算资源的头号消耗大户;阿里有50%的服务器不再处理任何事务,而仅仅用于处理数据,也恰恰从系统层面印证了这一点。
从“看数据”、“用数据”到“数据智能”,哪怕放眼全球,阿里都做出了绝佳表率,生动诠释着数据给互联网商业带来的飞跃和无限可能性。
然而,面对大厂们美好的标杆实践,更多非“数据原生”的企业依旧选择冷静观望。
“我们小小的港湾,停不下那样庞大的航空母舰。”业内几起数据底层建设“翻车”案例发生后,一家快消品牌商的CIO在接受媒体采访时表示,照搬大厂做法容易“水土不服”,其根本原因或出在数据基础设施建设成本高,而未能想清究竟要拿数据做什么,经不起无限试错,也等不起“十月怀胎、一朝分娩”。
盘点从数据生产到消费的全链路,可以简单粗暴地切分为两个部分:
上层,即数据应用,包括BI、数据可视化以及数据挖掘等等,能面向数据分析师甚至毫无技术储备的业务人员和经营管理者,让他们高效地调取和使用所需数据。
在各显神通的数据应用之下,是数据基础设施,通常由存储层(涉及云存储、分布式文件系统等)、数据处理层(包括流批图计算引擎等)、数据查询与分析层、人工智能层(提供算法训练、机器学习的技术基础)构成。上述架构无法孤立存在,而由一套数据云平台进行统一调度管理,确保数据从生产到消费全流程可用、可控、安全。
理想状态下,一套完善的数据基础设施中,应由数据云平台承担起“数据的操作系统”的重任——向下封装底层多技术、多依赖的复杂性,向上以API的方式供给数据能力,帮助业务快速搭建所需的数据应用,类似于基于iOS开发APP。
“现实根本没有像Windows、Mac OS那样好用的‘数据的操作系统’,企业必须直面混乱、复杂、深奥的底层。”一位信息化咨询出身、有十余年IT经验的资深从业者表示,这往往也是企业从IT走向DT、进行数据基础设施建设的难度所在。
在2015-2018年左右的探索期,相较于投入基础建设、苦苦摸索艰深的底层数据技术,模仿互联网大厂在消费者域的做法显然更聪明:依托APP、小程序、官网等在线手段,构建单个场景的数据闭环,实现小场景的“业务数据化”,从“拍脑袋”到有数据支持,增长肉眼可见。
谈及数字化小场景闭环带来的增长,一家自2017年起就采用UBA(用户行为分析)提升私域渠道流量转化的地产集团运营总监谈道:“这些数据创新实践就像望远镜,打开了DT时代的窗口。你不需要造宇宙飞船登月,也能看到、感知到数据的价值。”
同期,数据赛道创业潮涌现,从BI、用户行为分析、推荐引擎,到CDP、数据中台,百花齐放,为企业提供数据技术产品和解决方案的支持。这其中,越贴近业务、越能找到明星场景的厂商越受欢迎。
至于数据基础设施建设,待遇则与十几年前的ERP颇有几分相似,“上ERP找死,不上ERP等死”。
既然有不少BI和数据应用已经包揽了数据存算的部分基础能力,既然定期从业务系统里手动抽数、手工做Excel报表还能坚持一段时间,这个动辄数十数百万预算的“庞然大物”也还有等的空间,何不再等一等呢?
等待对手造出更多标杆实践再模仿,约等于把领先的机会拱手让人。事实上,在尚且可控的成本范围内,已有少数企业躬身入局数据基建。
2016年起,一家以饮料为主营业务的中国本土零售集团开始着手搭建数据基础设施。从传统数仓、自建大数据平台到数据云平台,摸爬滚打历经3个阶段,他们走出了一条与阿里们不完全相同、之于传统行业却极具代表性的道路。
最初,集团选择与国际头部基础软件公司SAP合作,引入SAP HANA(一款以“高性能数据查询分析”为卖点的内存计算平台),来满足对业务数据的查询与分析需求。
然而,伴随数据量的增长,用于匹配SAP HANA的专有硬件开销也在飙升。当数据量超过1T,甚至会出现“烧钱都解决不了”的问题——受技术架构所限,查询分析已无法靠增加节点来提速,报表产出极为困难。看数据虽好,却变成一件无比奢侈的事。集团开始寻求新的解法。
2019年前后,Hadoop风靡国内大数据技术圈。采用分布式基础架构的Hadoop拥有优秀的并行处理和扩展能力。不同于HANA,Hadoop如果要“加量”,只需增加普通的服务器成本,而无需为高昂的专有硬件“加价”,直接打破了以SAP HANA、Teradata为代表的传统数仓在海量数据场景所面临的困境。
和彼时自有IT团队的大型企业做法类似,这家零售集团选择转向利用开源Hadoop技术,自建大数据平台。
从直接外采到自建平台,在数据基础设施建设上坚持投入了3年,集团数科公司的数据总监直言,“当时并没有想太多。一个是不希望被弯道超车,另一个,我们真的需要看数据。所以从没想过什么‘烂尾’放弃。”
在自建平台约1年后,“复杂性”接连袭来,挑战层出不穷。
“我们尝试了很多方式来应对各种需求,解决了一个问题,又冒出一个问题。最终也导致数据平台里有很多烟囱式的建设,运维无以为继。”该总监说,譬如离线计算、实时计算、即席查询各立一条“航道”,存算资源明显有浪费,但不知如何优化;开源组件迭代快,学习成本高;缺少稳定的调度能力,导致数据作业不稳定,报表产出延时。
评估团队长期投入及成果预期后,2021年初,这家集团再度选择外采,与数据云厂商奇点云合作,依托数据云平台产品DataSimba,逐步完成了自身数据基础设施的升级,借助商业化产品解决种种“疑难杂症”。基于数据云平台,集团数科公司还自主将数据能力从销售域复制到了生产域、业财域。
“在DataSimba的背后,有一支成熟的外部团队在帮我们迭代,把最新的大数据技术和成熟的业内实践装进我们的基础设施。”集团数据总监补充道,“可见的提效是原本30分钟都产不出的TB级数据复杂分析,现在只需要秒级,真正响应科学经营管理的需要。而更多不可见的(价值)是,减少重复造轮子,平台设计能应对灵活多变的业务和数据分析需求。”
据奇点云CTO地雷介绍,许多企业都在经历这家零售集团过去发生的故事,需要从传统数仓转向数据云,或曾自建过数据平台,寻求数据技术栈的升级。而企业客户之所以从自建转向采购商业化的数据基础软件,除了对产品功能、性能及自主可控程度的评估,往往还有可持续性、可服务性及安全性的考量。
数据云科技厂商奇点云成立于2016年,坚持“平台+应用”模式,为企业提供自主可控的数据基础设施(数据云)与多样化的数据应用(分析云)。其中,数据基础设施更为通用,主要发力在平台性能、功能、安全等维度,封装底层技术复杂性;上层则针对品牌零售、智能制造等行业研发了丰富的数据应用和模型。
奇点云创始人、CEO行在是在大数据领域摸爬滚打二十多年的老兵,曾完整亲历阿里大数据之路。他坦言,在奇点云创业初期,确实只有极少数客户愿意投入数据基础设施建设,往往必须采取“基建+场景”的方式,以明星场景为切口,“无感植入”数据基建,到二期、三期再做能力扩展。而自2020、2021年以来,行在明显感受到“做数据基建找死”的风声发生了变化,企业数据基础设施建设的需求在持续上涨。
需求的一面,是基础设施能提供的全局数据能力实在诱人,数字化转型程度越深的企业,越希望尽快掌握;另一面,是生产业务的需要和种种数据问题倒逼:
• 数据分散在数百个IT系统和业务流程中,缺乏统一的管理和治理,各说各话;
• 烟囱式的数据应用建设加剧了数据孤岛,需要打通构建企业视角的数据资产,同时保障各个单元的数据安全;
• 基于单个小闭环构建的数据管理和应用能力,无法适应快速变化、日益复杂的业务场景,反而陷入重复建设中,需要可复用的数据能力;
• 数据量激增,复杂异构的数据、实时的分析需求、高昂的存算消耗不断提出技术难题,亟需构建性能强大的数据底座,但成本越低越好。
做不好数据基建,可能真得“等死”。
2020年,数据被国家列为五大生产要素之一。站在生产要素的视角看,企业搭建数据基础设施,消解底层的复杂性、统一向外提供数据能力和服务,对于数据要素的长远管理、利用、配置和流通而言,无疑是更为经济和聪明的方式。
与交通、能源等国家级基础设施类似,企业级的数据基础设施建设同样能产生明显的“乘数效应”:倍增的不仅是企业所拥有的数据,更是能被企业所使用的数据,能产生价值的数据。
而与国家级基础设施不同的是,企业级数据基础设施无法“集中(公共)力量办大事”,往往更依赖企业自身的投入与服务商的能力。
一方面,迈向DT时代的企业必须更舍得在数据基建的投入,像投入设计研发、产线改造、供应链升级那样,数据应得到核心资产同等程度的重视;
另一方面,降低“门槛”亦值得关注——通过专业技术持续提升数据基础软件的易用性和开放性,同时优化存算成本,让数据基建不再是少数派的“航空母舰”。
“推动数据普惠,是数据基础设施的使命。”
地雷介绍,除了智能安全算法、可观测元仓模型、指标工厂等亮眼的能力,数据云更多的技术攻关发生在“水面之下”,甚至已潜入“海底的无人之境”,比如优化引擎内核,或深入到java虚拟机层面,就是为了竭尽所能,降低客户使用数据的门槛。
奇点云的数据云产品体系
以多引擎混合调度的场景为例,为应对不同的数据查询和分析场景,企业往往需要用到流、批、图、时序等不同引擎。这些引擎如果各自分立,在维护困难的同时,也导致了资源浪费。
基于全容器化、多模态统一计算框架等技术,奇点云提出“大规模多引擎混合调度技术”,在数据云平台DataSimba中支持混合引擎调度,能根据业务负载自动调整容器资源的使用情况。
“就像‘潮汐车道’一样,可以分时段按需跑不同引擎,几乎不需要人工干预,提高任务执行效率,降低系统负载。”地雷介绍,相较传统的烟囱式建设,潮汐调度的方式通常能帮助企业节约30%以上的资源。
得益于大规模多引擎混合调度技术,海量数据、多端来源的OneID融合分析也成为可能。
一家旗下有近5000个营销服务网点的金融集团数据平台负责人透露:“我们数据体量大、ID类型多、ID关系复杂,加上对存量和增量数据的考量,采用传统方案不光成本极高,也是不现实且不可靠的。”
在多引擎混合调度技术框架下,奇点云采用“流批图一体”架构,确保在计算性能、复杂场景计算及可解释性上均具备优势,从而支撑中国企业特有的、海量数据多端来源的OneID融合分析场景。
“我们打通了100多个端的亿级用户数据,并落地OneID,相比传统方案,压缩比达30%以上,计算时间节省了至少50%,测试用例通过率达到100%。”平台负责人介绍。
又如“多租户”,这个场景天然为了资源利用最大化而生。企业的数据团队作为“平台”,理应通过多租户的方式服务更多部门、BU,合理优化资源利用,也免去他们自行运管基础设施的烦恼。然而囿于数据安全隐患的考量,很多企业宁愿多付出资源,也不敢冒险。
为此,奇点云推出“数据平台的多租户安全和资源隔离技术”,通过双层身份认证、双层权限校验、双层存储加密,来保证租户资源的强逻辑隔离与数据安全。在多个数据团队互不抢占资源的同时,相较传统方案,更节约了50%的大数据集群计算节点。同时,通过动态的权限管控,支持租户间数据安全共享,而无需数据迁移成本。
数据云作为基础设施,已深入到越来越多企业生产甚至整个产业的运转环节。为保证它的可靠、可用、可服务,厂商往往会采用“堆机器”的方式,这背后有一个简单的逻辑:备份越多,冗余越多,系统故障后的补救空间就越大——可以拿副本顶上。
对此,地雷的观点却有几分“反常识”:“作为独立第三方,我们有义务帮助客户尽可能优化资源成本。”
奇点云基于微服务体系、全容器化等技术,在保障“RAS”(即可靠性、可用性、可服务性)的前提下,不断压缩数据云部署的最小节点数。部署包括数据云平台DataSimba、数据存算引擎DataKun、数据安全引擎DataBlack在内的全套数据云产品,最小节点数从11台降至6台,并仍在持续优化。这意味着有更多企业能花更低的软硬件成本,完成数据基础设施建设。
2023年5月,奇点云正式发布了“云数仓”版本的DataSimba Cloud,进一步提供更高性价比的“轻量级”云上数据基础设施体验。
“这些水面之下踏踏实实的技术攻关,用行动证明了我们和客户站在一起。”行在说。
据悉,2023年刚刚过半,奇点云的数据云产品销售成绩就已远优于往年,其中,除了持续复购的老客户,也多了不少来自制造、金融行业的新面孔。这种“双向奔赴”或许正是行在、地雷和他的团队潜心投入基础设施技术研发的底气。
过去“能不能直接把你服务的头部企业数据给我”的误解,已经成为坊间笑谈。“数字化转型没有标杆案例”的论断,也一次又一次被低调的先行者们用实践证伪。从满足于单点数据应用的闭环,到纵身跃入底层数据基础设施建设,企业的耐心来自于亟待解决的数据痛点和对规模化发挥海量数据价值的希冀,也与国内数据基础软件厂商们为“数据普惠”的不懈努力密不可分。
有数据显示,在美国一次机构调查中,受访企业里设CDO职位的比例,从2012年的12%已经提升至2021年的65%。而在中国,这个比例目前还不到5%。
当AI的风裹挟着数据技术的浪潮一同袭来,毫无疑问,拥有数据基础设施和独有数据资产的企业,能抢先结合AI模型能力,建立起自己的竞争优势。
好在奇点只是临近,对于那些习惯等待的企业来说,还有足够的时间补齐短板。