为什么我们会认为数据质量是跨维度衡量的。因为我们需要相关的数据质量指标来支持业务。数据质量检测系统的价值在于能够采取行动改进数据,使数据更正确,从而更有价值。我们都希望从发现数据质量问题到解决问题之间的时间越短越好。已被证明有效的方法就包括以数据质量规则的形式提出非常有针对性的问题,并为这些问题定义一个数据质量维度。这种方法我们可以缩短数据质量规则的响应时间,从而缩短解决问题的时间。
Danette McGilvray在她著名的著作《执行数据质量项目:质量数据和可信信息的十个步骤》中将数据质量维度定义为“数据的特点、层次或特征”。如果我们使用一个且仅使用一个维度可以增强数据质量规则的粒度,从而缩短响应时间。让我们对比一个生活的场景来理解。
也许你可以回忆一下你上次去买新衣服的场景,也许你会发现自己在试衣间里试新衣服,然后听到门外服务员跟你在沟通--“你在里面试得怎么样?你还需要拿点其它什么吗?”让我们来看看可能会发生的几个场景。
最理想的情况是,你会快速地说“不错,谢谢!”你穿着一件很棒的新衬衫在照镜子。类比这种情况下,可以说明某项目符合我的标准,我对此感到满意。数据质量规则就是这样。通常,我们会更关注较差的数据质量(因为这是我们支持业务的机会领域),但事实上,我们中的许多人已都有一些优秀的数据,业务方已经将其用作宝贵的资产。
可能你会对销售人员大喊的下一个最理想的回复是,“你有同样的小一号的衬衫吗?”,当然也给销售人员提供了立即响应的机会。在这种情况下,解决方案将是可能实现和可快速实现的,从而将会发生更合适的产品。
还有可能是类似令人难以置信的开放式的情况,如“你在那里过得怎么样?”的表达。这样对方将可以说任何回应。我们应了理解一个成熟的数据治理框架应该从一个明确的关键数据元素(CDE)定义开始,以确保我们测量正确的数据,然后是评估一系列标准,如“衬衫必须是绿色的”和“衬衫必须小码”。按照标准,我们很容易建立有针对性的数据质量规则。这件衬衫是绿色的吗?这件衬衫的尺码小吗?规则的衡量将清楚地表明是否符合标准,将不需要额外的反馈。
但是,清晰、简洁的标准并不能自动表明你提出的规则可以得到积极的响应。你可以很容易地收到你喜欢的颜色缺货的回复。虽然不是你所希望的理想答案,但反应仍然迅速而清晰。同样,无法立即补救具有失败结果的特定目标数据质量规则也是有正当理由的(时间、金钱、优先级)。虽然这可能很难听到,但这些信息是有价值的。无论如何我们最好手头有相关信息,以便能够正确地确定优先级和制定战略。
可以肯定的是,清晰表达的数据质量规则会导致快速响应,但不一定是简单的补救措施。比如,“我喜欢这件衬衫的外观,但我想要一些在冬天保暖的东西。这件衬衫有较厚的面料吗?”这可能是商店提供的,也可能不是。在这里,它比以往任何时候都更能正确地识别和传达不符合您标准的衬衫特征,它将提供最佳响应,并有助于确定前进的道路。也许这家商店提供了定制衬衫的功能,你可以与他们合作,创造出满足你需求的替代品。如果商店不提供这种定制,那么清晰度将再次帮助您正确制定战略。也许你会转到另一家商店,那里的产品会更好地满足你的需求。这些可能不是理想的选择,但至少你有确定前进道路所需的信息。
规则越不清晰,结果就将会越糟糕。创建一个没有特定维度的数据质量规则类似于回答销售人员的初始询问:“我不喜欢这个项目;你能帮我找到不同的东西吗?”我们没有给销售人员任何有效信息。那他们充其量只是在黑暗中打一枪,或者他们将不得不向你提出更多的咨询问题:“你在寻找特定类型的衣服吗?”“你在为特定活动或日常穿着寻找服装吗?”。这类似于生成导致根本原因分析活动而非提供解决方案的数据质量规则。这样的规则可能也会让人觉得富有成效,也朝着正确的方向前进,但实际情况下它真的可以是这样吗?
我们并不是说没具备特定维度的数据质量规则是无效的。我们更强调的一点的是,如果您的度量当前正在提供数据质量信息,而它们不是特定于维度,那么您有很大的机会通过创建类似的特定于维度规则来增加规则库的价值。一旦你拥有了一些跨维度测量相同数据的规则,你就可以同时使用输出报告来真正了解数据环境。