谈谈不良数据的指数级影响

作者：王建峰发布时间：2024-09-09

数据质量差就像在一场混乱的对话中，很难说服任何人。就像有缺陷的信息会扰乱对话一样，不良数据也会给依赖它做出选择、运营产品或服务客户的企业带来麻烦。然而，影响各不相同。当业务关键数据不好时（不准确、不完整、不一致或过时），可能会造成严重后果。

在这篇文章中，我们将探讨不良数据的影响、数据质量解决方案的重要性以及数据质量和可观测性之间的区别。我们还将介绍一些现实世界中不良数据质量及其影响的例子。

一什么是不良数据

不良数据是指不符合预期用户或目的的期望或要求的数据。不良数据可能由各种因素造成，例如人为错误、系统故障、恶意攻击或缺乏标准和治理。不良数据的一些常见示例包括：

缺失或不完整的数据，例如没有电子邮件地址或电话号码的客户记录。

数据不准确，例如产品价格不能反映当前市场价值或库存水平与实际库存不符。

不一致的数据，例如不同数据库或系统中具有不同名称或地址的客户记录。

过时的数据，例如未反映最新交易的销售报告或不相关的客户反馈。

二不良数据的影响随着时间的推移而恶化

如果数据问题得不到解决，就会在整个组织内蔓延。这些问题从技术团队开始，最终影响到业务用户和公司整体。随着时间的推移，影响会逐渐扩大——从小规模的运营效率低下到广泛的组织混乱、客户不满和潜在的法律风险。尽早发现和解决问题是阻止问题升级的关键。这表明需要进行主动的数据质量管理，以保护业务健康和完整性。

不良数据的连锁反应会影响您业务的方方面面：

数据工程师：花更多时间排除故障，减少创新时间。不良数据会增加工作量，因为它需要大量的验证和纠正过程，而这些过程本来是可以避免的。

数据科学家：模型准确性受损。不准确或不完整的数据可能导致误导性的分析结果，影响机器学习模型得出的预测和决策。

客户：信任和满意度下降。当个人数据处理不当或由于潜在数据问题导致产品和服务不符合预期时，客户会面临不便或不满。

员工：生产力和士气下降。员工苦苦挣扎于低效的流程和系统，导致沮丧情绪和团队绩效及工作满意度下降。

公众：负面看法和声誉受损。数据不准确的公开事件可能导致人们对组织失去信心，影响其品牌和长期成功。

这些后果强调了强大的数据管理在维护整个公司可信且一致的数据方面发挥的关键作用。

三造成不良数据的6个常见原因

数据驱动型组织需要持续采取措施，尽早发现不良数据，保护其业务和客户。为了做到这一点，而无需花费大量时间进行手动侦查工作，数据团队需要自动化监控。这可确保他们的数据始终符合目的，以便他们能够专注于创新和其他计划。

现在，让我们探讨一下导致不良数据的六个常见原因以及如何监控它们。

1—数字异常：监控平均值、最小值、最大值和标准差等指标。

数据输入错误：手动数据输入经常会导致不准确。

数据集成不正确：错误处理来自多个来源的数据可能会扭曲总体指标。

传感器故障：自动数据收集系统有时会出现故障，影响记录的值。

异常交易：不常见的重大交易（例如批量购买）可能会暂时扭曲数据。

2——分布误差：监控数值分布，以确保随时间推移的稳定趋势。

季节性变化：忽视周期性波动可能会误导趋势分析。

市场变化：市场环境的重大转变可能会意外改变数据趋势。

数据处理错误：不准确的计算或转换会影响整体数据分布。

3—时间戳不匹配：检查最小和最大时间间隔。

系统时区配置错误：这可能导致数据集中记录的时间不一致。

网络延迟：数据传输延迟会影响时间戳的准确性。

处理延迟：数据管道中的瓶颈可能会导致意外的时间滞后。

4—数量问题：监控重复项、NULL值、唯一值和行数。

重复错误：数据提取过程中的重复可能会导致行数增加。

数据丢失：数据传输不完整或存储故障会减少记录数量。

过度的数据清理会错误地毁掉有价值的信息。

5-分类分布变化：检测是否意外添加或删除类别。

不断发展的产品线或服务：新产品可能会引入意想不到的类别。

数据错误分类：将记录错误地分配到类别中。

数据分类规则的变化：分类逻辑的更新可能导致分布的变化。

6—延迟数据：确保您的数据始终是最新的。

延迟的数据管道：缓慢的处理可能导致数据落后于它所代表的现实世界事件。

更新不频繁：不定期刷新数据源可能会导致使用过时的信息。

外部数据源延迟：依赖第三方数据将您的数据集与他们的时间线联系起来。

数据团队可以利用这些原因来预测问题并采取预防措施。通过持续监控这些维度，您不仅可以保证数据的安全性，还可以保证数据的实用性。这确保决策是基于最新、最全面和最正确的可用信息做出的。

5个现实世界中数据质量不佳的例子

案例研究1：Unity的1.1亿美元广告定位错误

以实时3D开发平台闻名的UnityTechnologies在其广告定位服务方面遭遇了严重失误。其数据算法出现故障，导致广告定位不准确，造成大量收入损失和广告商不满。这一误判破坏了广告商的信任，并导致约1.1亿美元的损失。首席执行官JohnRiccitello概述了该事件的影响，并指出：

对收入来源产生直接影响。

与修复工作相关的支出，包括重建和再训练模型。

由于解决数据质量问题至关重要，因此推迟了可能带来收入的功能发布。

案例研究2：波音737Max致命灾难

波音公司是航空航天工程领域的领军企业，其737Max飞机面临严峻挑战，导致其对航空安全软件集成进行了深刻的重新评估。在这种情况下，未能充分考虑和传达飞机机动特性增强系统(MCAS)软件的变化是两起悲惨事故的核心原因。这一疏忽凸显了数据完整性和透明通信在复杂系统设计中的重要性。

改进的软件协议：事故发生后，波音公司改进了737Max软件，并引入了更严格的测试，以确保强大的飞行安全。

升级的培训计划：这些事件凸显了详细飞行员培训的必要性，结合模拟器经验来掌握新软件。

加强审查流程：波音公司与监管机构合作，加强了新飞机的审查和认证程序，优先考虑透明度和严格的安全标准。

案例研究3：Uber车费计算失误

2017年，Uber由于其车费计算系统的数据错误，其在纽约市少付司机数千万美元的工资，这一事件登上了头条新闻。这一错误持续了两年多，导致Uber从司机的收入中收取了比应得的更高的佣金。Uber不得不退还司机的工资，并向联邦贸易委员会支付2000万美元的和解金，以弥补其误导司机的潜在收入。

这一错误的连锁反应十分深远：

财务赔偿：Uber必须向司机退款以弥补收入差异，这凸显了数据不准确造成的昂贵后果。

监管影响：美国联邦贸易委员会以误导司机盈利潜力为由向Uber支付了2000万美元的和解金，凸显了数据处理不当所带来的监管风险。

案例研究4：英国新冠肺炎数据错误

在COVID-19危机期间，英国的数据基础设施面临严峻考验，有近16,000例病例未报告。问题的核心是一个简单但影响深远的缺陷：电子表格无法处理所需的数据量。结果，重要的接触者追踪活动遭遇延误，导致控制病毒传播的努力出现空白。英国公共卫生部的系统突然受到密切关注，暴露出需要能够跟上激增需求的数据管理解决方案。

直接结果：

疾病追踪和应对实践中断，导致公共卫生影响。

深入检查数据管理能力和系统弹性。

案例研究5：2020年美国人口普查自我回答折扣

2020年美国人口普查以创新方式提高参与率为标志，包括战略性地使用折扣来鼓励自我回答。尽管出发点是好的，但执行却出现了问题，对过时数据模型的依赖导致资源分配不高效。通过将激励措施导向合规性已经很高的地区，人口普查局无意中忽视了更需要支持的社区。

后果：

误导性的资源影响了人口普查的完整性和总体成功。

社区参与和纠正数据措施的需求不断增加，给运营工作流程带来压力。

这些案例清楚地表明了一件事：对任何行业来说，一丝不苟地关注数据质量都至关重要。这是成功与失败之间的一线之隔，影响着从安全到财务健康的一切。

四数据可观测性是对抗不良数据的起点

数据可观测性是指在数据整个生命周期内监控、衡量和了解数据健康和质量的能力。数据可观测性使企业能够：

实时或近实时检测并诊断数据问题，例如错误、异常或不一致。

跟踪和排除数据问题，例如识别数据问题的根本原因、来源和影响，并快速有效地解决它们。

使用自动数据质量检查、规则和警报来预防和预测数据问题。此外，利用数据分析和机器学习可以预测和避免潜在的数据问题。

数据可观测性如何提高数据质量

数据可观测性对于提高数据质量至关重要，因为它为企业提供：

可见性：数据可观测性提供了数据格局的完整视图。它涵盖数据源、管道、转换步骤和目标。这有助于企业了解其数据的来源、背景和含义。它还有助于他们确保其数据的一致性、准确性和完整性。

问责制：数据可观测性提供了清晰透明的数据历史记录。它包括数据的来源、谱系和元数据。它还涵盖数据的更改、更新和修改。这有助于企业跟踪和审核数据生命周期，并确保其数据值得信赖、可靠且合规。

可操作性：数据可观测性提供可操作的见解。它通过质量分数和指标建议数据改进。它涵盖数据问题、其根本原因和解决方案。这有助于企业确定优先级并解决任何与数据相关的问题，并优化数据质量。

五数据质量与数据可观测性：了解差异与相似之处

数据质量和数据可观测性是两个相关但不同的概念，如下所述：

数据质量是数据满足预期用户或目的的期望或要求的程度。数据质量通过各种维度来衡量，例如准确性、完整性、一致性、及时性、有效性和唯一性。

数据可观测性是指在数据整个生命周期内监控、衡量和了解数据健康和质量的能力。数据可观测性由各种组件实现，例如自动数据质量检查、规则和警报。这包括数据沿袭和元数据监控。还有一种更精细的数据可观测性方法，称为深度数据可观测性。简而言之，深度数据可观测性让用户比传统的元数据监控更密切地监控数据。它会扫描实际数据集并可以检测到行级的差异。

数据质量和数据可观测性有一些相似之处，例如：

他们都致力于确保数据可信、可靠，并对企业有价值。

它们都涉及数据质量指标、指标和分数来量化和评估数据质量水平和性能。

它们都需要数据质量治理和管理来定义和实施数据质量标准、政策和流程。

数据质量和数据可观测性之间的相互作用

数据质量和数据可观测性并不互相排斥，而是互补、相互依存，如下所示：

数据可观测性是数据质量的先决条件，因为它为数据质量改进提供了可见性、可问责性和可操作性。

数据质量是数据可观测性的结果，因为它反映了数据可观测性实践和行动的有效性、效率和影响。

良好的数据质量和可观测性相辅相成。它们创造了数据质量改进的良性循环。具体方法如下：

数据可观测性可以实时或近实时地检测和诊断数据质量问题，例如错误、异常或不一致。

数据可观测性可追踪和排除数据质量问题。它可识别问题的原因、来源和影响。它可让用户快速有效地解决问题。

数据可观测性通过实施自动数据质量检查、规则和警报来预防和预测数据质量问题。它还利用数据分析和机器学习来预测和避免潜在的数据质量问题。