当前位置:首页|资讯

Data Fabric 数据编织的哲学

作者:王建峰发布时间:2024-09-13

我们周围的一切,从环境和生物过程到工业活动和数字交互,都会产生数据。从孩子出生的那一刻起,他们就开始消费这些数据,处理数据,提取信息,并将其作为知识吸收到大脑中。然后,当他们上学时,他们会吸收更多的数据,进一步增加和完善他们的知识。随着他们长大成人,他们开始制定自己的政策,并根据他们积累的智慧做出决定。

这种生成和消费数据的循环并不是什么新鲜事,它一直是我们生活中不可或缺的一部分。例如,当你在社交媒体上发帖时,你分享了自己的经历,同时也从其他人的帖子中收集了见解。同样,使用健身追踪器也会生成有关你健康的数据,同时根据这些数据接收建议。这些日常活动体现了我们如何不断进行信息交换,而我们往往没有意识到这一点。

父母将知识传授给孩子,老师将知识传授给学生,学生将所学知识相互分享。这种连续的循环类似于大规模管理和共享数据的方式。就像父母和老师通过强制执行规则来帮助孩子区分好坏来塑造学习过程一样,我们使用规则来有效地管理和使用数据。

分享的“力量”

孤立的知识与分享给所有人并产生真正影响的知识相比,并没有显著的不同。例如,如果父母或老师不与孩子分享知识,这会帮助他们有效地成长吗?

研究表明,随着时间的推移,分享积累的知识可以显著提高生产力。(Wright,1936 年;Benkard,2000 年;Hendel,Spiegel,2014 年)

例如,赖特对飞机制造业学习曲线的研究发现,产量每增加一倍,经验和共享知识就可以降低20%的生产成本。

Sandvik 等人 (2020) 和 Papay 等人 (2020) 通过实验表明,当鼓励同事见面并分享知识时,生产率会提高。

但是我们如何有效地共享数据

有效的数据共享一直具有挑战性,因为从历史上看,数据是在孤岛中管理的,这限制了其潜力并使及时共享变得困难。

如今,随着社交网站、数字渠道和先进技术的出现,知识共享和实时协作的过程不仅规模扩大,而且呈指数级加速。数据量正以惊人的速度增长。根据 2018 年《福布斯》的一篇文章,我们每天产生 2.5 千万亿字节的数据!

数据不断增长、快速变化的特性,汇聚成响应式用例,使得快速准确地共享正确信息变得极具挑战性。因此,在无缝集成到新知识中时,确保数据的准确性至关重要。

但是,作为负责任的公民,我们如何在不损害数据真实性、可追溯性或限制信息自由流动的情况下管理数据,同时还要考虑到数据的流入速度和差异性?

“打破”问题

从早期开始,我们就试图通过将数据限制在定义的实体中来限制数据的流动性,而这些实体的定义受到我们对数据的现有知识的限制。

因此,当有新发现时,我们通常需要精心调整这些系统以保护我们已有的数据并在此基础上进行构建。然而,这个过程可能很慢,因为每个更改都必须经过仔细的审查和批准。

为了更好地理解这一挑战,让我们通过一个例子来分解它。

想象一下这样的场景:政府运营公共交通系统并跟踪服务产生的收入。该系统发现收入正在快速增长,并决定推出更多公交车以满足不断增长的需求。然而,增加公交车并没有像预期的那样增加收入。相反,运行这些新公交车的成本增加了运营费用,影响了投资回报率 (ROI)。为了了解消费者行为,政府官员决定利用新的数据源。然而,由于缺乏基础设施和现有系统的僵化,获取、分析、检测和采取行动所需的时间显著增加。这种缓慢的响应速度使他们无法快速解决和恢复损失。

因此,为了应对这些挑战,现代数据管理系统必须采用一些机制来执行以下操作:

1)收集和整合数据:将数据无缝地整合到现有结构中。

2)数据情境化:将原始数据转化为有意义且有用的见解。

3)学习和发展:根据新数据不断更新知识。

4)验证和认证:制定政策以确保新见解的准确性。

5)促进共享:通过适当的访问控制和使用合同实现数据共享。

Data Fabric 的“诞生”

正如我们目前所理解的,数据是敏捷的。这意味着我们需要一个灵活、适应性强、值得信赖且能够快速响应环境变化的系统。

所有这些必需品结合在一起,催生了“数据编织”概念。

数据编织是一种处理数据的新方法,旨在提高灵活性和响应能力。它提供了一个用于收集、存储、更改、共享和管理来自各种来源的数据的单一系统。

“理论”基础

18 世纪,哲学家伊曼纽尔·康德区分了两种知识来源。

1)先验知识:独立于一切经验,仅取决于事实。

2)后验知识:依赖于认知学习或经验。

因此,当感知数据时,“已知”帮助我们形成先验知识,而基于我们的经验从数据中进行认知学习则形成后验知识,并随着时间的推移不断完善。

数据编织通过创建我们已经知道的知识图谱(基于事实)并利用从洞察中获得的新见解进一步增强它们来支持这些想法,帮助我们不断提高我们的理解。

然而,为了从数据中获取准确的知识,我们必须确保数据的准确性。

这将我们带到下一个主题——数据治理的重要性。

治理的“角色”

有效的数据治理或管理数据的规则和流程对于确保数据的准确性和可靠性至关重要。不同的治理策略带来各种好处和挑战。

这里我们将重点关注联邦治理策略。

联邦方法将治理分为集中式政策(规则适用于整个组织级别)和分散式政策(规则针对特定团队或职能部门定制)。此模型可确保数据的可追溯性和真实性,同时允许本地化专业知识和准确性。

Data Fabric 也采用了类似的方法。组织或全局数据策略在企业级制定,而功能数据策略则在消费者端执行。消费者端数据的主题专家负责数据的准确性。端到端治理策略确保数据的可追溯性和真实性。

因此,知识不再与数据的形式或格式紧密相关,而是随着不同来源的出现而不断发展,形成新的数据形式。消费者充当架构师或领域专家,利用可用数据、对其进行情境化、丰富数据并确保质量。通过不断的反馈过程,这些数据对象会根据(但不限于)真实性、准确性和质量获得批准或拒绝。

“数据”作为产品

如今,数据的价值观念已经从结构化的交易记录转变为推动决策和创新的更具动态的结果型资产(Davenport and Prusak,1998)。

这种对待数据方法的转变要求我们转变思维方式,不再将数据视为我们存储的东西,而是将其转化为人们可以使用的有用知识

这种方法通常与产品管理原则相一致,其中数据被视为具有生命周期的产品,确保准确性、实用性、增强的用户体验和最新性。

为了确保可访问性和协作性,Data Fabric 将这些数据产品放在市场上,并由指定使用规则和参数的数据合同进行管理。这种方法不仅提高了数据的可重用性,而且还有助于做出更好的决策。

“实际”影响

回到我们之前举的公共交通系统的例子,政府官员努力将消费者行为与现有知识联系起来,数据编织使官员能够有效地整合各种数据源。通过实现分散治理并无缝利用与社交网络相关的数据产品以及对用户体验和反馈的内部调查,官员们发现了诸如公交车状况不佳和售票系统过时等问题。通过改善公交车状况和数字化售票流程来解决这些问题,官员们能够增加收入并提高服务使用率。随着越来越多的客户开始使用公交服务,这提高了客户满意度并增强了用户体验。

“最后”的想法

总之,Data Fabric 利用其敏捷特性彻底改变了我们管理和利用数据的方式。它为数据集成、情境化和有意义的数据产品提供了全面的框架,确保了真实性并增强了协作。随着数据量和复杂性不断增长并变得越来越复杂,Data Fabric 提供了一个关键框架,用于将原始数据转换为知识驱动的产品,从而提供可操作的见解并保持竞争优势。该框架不仅有助于应对现代数据的复杂性,而且还确保组织通过利用数据驱动的决策保持竞争力。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1