不管是数据治理厂商或者是甲方一直都在做数据血缘分析,最初是SQL语句解析,再往后加入了数据库存储过程解析、ETL脚本解析、程序脚本解析、元数据解析、数据接口解析等等,解析内容越来越多,越来越复杂。但至少到目前,谁也不敢说自己的数据血缘分析能力可以达到100%解析正确。
为什么还要做呢?我们来看看它的定义及价值:
如果按照国内外较先进的说法,将会有两种与数据相关的血缘,一个是数据血缘,另一个是业务血缘。
数据血缘是指数据生命周期的详细记录,跟踪数据在各种系统和数据转换中的流动。它将会形成一种技术视图,可以展示数据在组织的IT基础架构的流向。
业务血缘是指从业务角度来观察数据流,记录数据在业务运营、应用程序和业务决策过程中的使用方式,对于业务血缘将提供一个简化的高级业务视图,类似业务流形式供业务用户访问。
按照现在流行的数据资产管理框架下,业务血缘将帮助我们管理我们的数据资产目录及数据资产的价值化过程。而数据血缘将帮助提升我们的数据资源的质量及确保数据资源的可信度。这两种血缘都应该使用标准业务术语和概念,结合元数据管理来提升企业中数据管理能力。
那么它们的价值与哪个利益相关者相关并且是如何体现的?
数据血缘也是一种元数据映射,用于跟踪数据管道中上游和下游依赖数据项之间的关系,以说明数据的来源、更改方式以及向最终用户显示数据的位置。
数据血缘分析(特别是自动化数据血缘分析)的价值:
•增强数据透明度和可见性:自动化数据血缘分析提供了数据如何在组织中流动的清晰实时视图。这种透明度使利益相关者能够更深入地了解数据使用、依赖关系和转换。通过数据血缘的可视化表示,团队可以做出明智的决策、优化数据流程并确保数据质量,从而培养数据驱动型决策文化。
•提高数据质量和准确性:保持数据质量对组织来说是一个持续的挑战。自动化数据血缘分析工具通过突出显示数据血缘中的数据异常、转换和潜在错误来帮助识别数据质量问题。这种早期检测使数据管理员和数据科学家能够及时解决问题,确保数据保持准确可靠。
•高效的合规和审计:数据血缘对于法规遵从性至关重要,尤其是在金融和医疗保健等受严格数据法规约束的行业中。自动化数据血缘分析工具提供审计跟踪,演示如何使用和处理数据,从而促进合规性报告和审计。此功能可降低不合规和相关处罚的风险。
•简化数据治理流程:数据治理涉及定义和实施数据策略、标准和程序。自动化数据血缘分析通过提供对数据资产、其所有权和更改影响的清晰了解来简化数据治理流程,从而更轻松地实施数据策略和维护数据质量。
•更快的故障排除和问题解决:当出现数据问题(例如差异或性能瓶颈)时,自动化数据血缘分析工具可以更快地进行故障排除和问题解决。数据专业人员可以在数据血缘中追溯问题的根源,确定根本原因,并及时实施解决方案,从而最大限度地减少停机时间和中断。
•优化数据集成:数据集成是现代数据架构的关键组成部分。自动化数据血缘分析通过提供对数据源、转换和依赖关系的洞察,帮助组织优化数据集成。这些信息允许更高效的数据集成过程,从而降低集成复杂性和成本。
•增强数据协作能力:数据专业人员、数据管理员和业务团队之间的协作对于成功的数据管理至关重要。自动化数据血缘分析工具通过提供对数据资产及其用法的共同理解来促进协作。这促进了跨职能的团队合作,并确保有效地利用数据来实现业务目标。
•增强数据安全性:在当今的数字环境中,数据安全是最重要的问题。自动化数据血缘分析可帮助组织识别其数据管道和访问控制中的漏洞。通过了解数据如何在系统中移动,组织可以实施强大的安全措施并有效地保护敏感信息。
•可扩展性和面向未来:随着组织的发展和数据量的增加,可扩展性变得至关重要。自动化数据血缘分析工具可以处理大型和复杂的数据集,确保数据血缘关系即使在数据生态系统扩展时也能保持准确和可访问性。这种可扩展性使数据管理策略可面向未来。
•降低成本:自动数据血缘分析减少了记录和维护数据血缘所需的手动工作。这通过优化数据管理流程、减少错误以及最大限度地减少合规性和审计活动所需的时间和资源来节省成本。
•有效的变更管理:在瞬息万变的业务环境中,数据管道、系统和流程的变化是不可避免的。自动化数据血缘分析可帮助组织有效地管理变更。通过可视化数据流如何受到变化的影响,团队可以评估潜在风险并做出明智的决策。这种主动方法可最大限度地减少中断,减少停机时间,并确保在系统升级或流程修改期间实现更平稳的过渡。
•增强的数据探索和数据发现:数据血缘分析工具不仅可以跟踪数据的旅程,还可以深入了解数据资产之间的上下文和关系。此功能改进了数据的探索和发现。用户可以轻松识别相关数据集,了解其来源,并探索数据依赖关系。这促进了数据驱动的洞察力,并鼓励数据专业人员利用更广泛的数据源进行分析和决策。
3种方法来获得数据血缘分析的价值:
1. 通过血缘关注质量而不是数量
当今企业都渴望成为数据驱动型企业,但是不是收集更多的数据越有利于数据驱动,与企业商业策略无关或者或无效杂乱的数据反而因为是数据噪音而产生不利影响。收集更多的数据并不能全部自动转化为更多价值,但它却实实在在地增加了存储和维护成本。
这就是当前越来越多人来强调“小数据”的原因。Gartner预测,在未来几年内,70%的组织将把重点从大数据转移到小型和广泛的数据上,数据分析上采用一种减少依赖性的方法来促进更强大的数据分析和AI。
数据血缘应该可以在这些决定中发挥关键作用。数据血缘分析的解决方案不应简单地使用自动化来捕获和生成数据的数据关系图,而应生成可以包含相关关键元数据信息的数据关系图,比如在数据血缘图显示哪些数据资产是活跃的以及由谁使用。通过了解更全面的数据使用情况,企业组织团队可以开始更好地了解哪些数据对他们的组织最有价值。哪些数据资产可以弃用或者哪个数据表是不再使用的,减少下游的潜在数据问题和混乱,帮助业务部门专注于数据质量提升。
2. 可以通过字段级数据血缘分析发现关键信息
数据血缘分析解决方案应生成可以快速导航的图谱并可以快速查询定位以帮助人们找到解决问题或回答问题的重要内容。而不是追求形成一张大而复杂的视觉效果。
数据血缘分为表级血缘及字段级血缘,字段级血缘可帮助团队通过更精细的粒度来了解数据管道中的数据问题。
3. 在数据血缘分析结果中包含正确的上下文信息
通过收集和组织更多正确的业务上下文元数据信息可以解决数据积累过程中的数据可用性问题。包含丰富的上下文元数据信息的数据血缘分析过程非常有用,因为它可以帮助团队更快地进行故障排除,并了解潜在的数据架构更改将如何影响下游报表和利益干系人。
通过数据血缘本身中包含的数据资产的正确元数据信息,您可以获得做出明智决策所需的答案:
•谁拥有此数据资产?
•此资产位于何处?
•它包含哪些数据?
•它对利益相关者是否相关和重要?
•当我对资产进行更改时,谁在依赖它?
当这种关于如何在企业中使用数据资产的上下文信息通过强大的数据血缘分析浮出水面并可搜索时,事件管理就会变得更加容易。您可以更快地解决数据停机问题,并将受影响数据资产的状态传达给组织中的相关利益干系人。
数据血缘分析的几个场景:
1、展示不同数据管道的数据血缘
数据血缘分析将应用于如数仓及数据中台的数据加工链路、从生产系统到数仓到数据应用的全链路分析、数据集成应用、各生产系统间或内部的数据流等。
2、发现数据孤岛问题
可以通过数据血缘分析,发现重要数据的数据孤岛问题(无或少血缘关系、有上游无下游、有下游无上游),排除数据中临时表、无效表等。
3、追溯及协助解决数据质量问题
根据数据质量检测节点,根据数据血缘关系追溯数据的源头,利于数据质量根因分析,协助数据质量问题的解决。
4、确认数据资产的可信和安全性,并帮助数据资产价值评估
通过数据血缘分析结果结合数据资产形成数据资产图谱,有利于理清数据资产的数据源头及加工链路信息,验证数据资产的数据源头可信,降低数据安全风险,为数据资产的价值评估提供数据路径。