全面解析数据质量管理【建议收藏】

前言

大家好,我是唐三少。大数据蕴藏着大价值,但想要将大数据的价值充分发挥出来,首先必须要确保收集来的数据质量可靠,否则即使拥有最好的硬件、应用系统和数据分析平台,也难以保障业务的最终成果。数据质量差的大数据带来的很可能不是洞见,而是误导,甚至是惨痛的损失。

1. 什么是数据质量

247210bk-1.png

在DIKW金字塔模型中,数据出于底层,在数据之上,是经过数据加工之后的形成的信息,即上下文的数据。在往上,我们将知识视为可操作的信息,并将顶级智慧视为可应用的知识。如果数据质量差,则信息质量将不佳。信息质量差,业务操作方面将缺乏可应用的知识,而使用错误的知识将对业务结果带来高风险。
所以,所有数据都有一定程度的质量,该程度在一定意义上是可评估,可测量的。高质量数据的定义是什么:
■ 数据适合预期的使用目的
■ 数据正确的表达了所描述事物和现象的真实构造
■ 数据符合某个标准或 达到人们期望的水平
无论从哪个定义来看,数据质量都是指数据满足人们的隐性或显性期望的程度。人们判断数据质量的高低取决于人们的期望,当然高质量的数据更符合期望。
人们的期望很复杂,不仅在于数据应该表示什么,还在于使用数据的目的和如何使用它们。所以数据质量是相对的,主观的,还可能是矛盾的。比如同一条客户信息,对于销售部门来说是高质量的,因为他只需要知道卖给了谁;对于物流部门来说,除了用户基本信息,还需要知道收货信息(收货人地址,姓名,电话等);对于财务部门来说,除了上面的信息,还需要关注客户的开票信息。如果这一条客户信息不完整,就无法进行客户服务,因为该数据没有完整且正确地描述在业务运营中所需的真实身份和地点,这会对企业业务带来影响。

2. 数据质量差的后果
2.1 经济损失
质量差最直接的影响就是遭受经济损失。如果不了解客户的最新产品和动态,就会失去客户和潜在客户,以及他们可能带来的收入。如果系统中的客户联系信息不正确(比如电话、电子邮箱等),客户的家庭关系错误,就无法对客户进行精准分析,甚至连营销信息都无法送达客户,更不用说销售产品了。数据错误可能会给企业带来巨大的经济损失甚至名誉损失。

2.2 增加成本
如果企业中存在大量不完整,不正确的数据,将会给业务带来额外的沟通成本。如果企业使用这些质量差的数据进行数据分析或预测分析,不仅浪费时间,而且有可能被误导。同样,如果数据中存在重复项和缺少字段的情况,企业数据管理效率也会降低。
“垃圾进,垃圾出”,基于低质量数据做出的分析结果一定是不可信的,不具备任何辅助决策意义,只能造成成本的浪费。

2.3 名誉受损
有一个故事,美国一超市给还在上高中的女儿寄送婴儿服和婴儿床的优惠券,而被这位父亲所投诉,后来这位父亲发现女儿真的怀孕了,又向超市道歉。假如超市的数据质量有问题,还能准确预测上高中的女儿已经怀孕了吗?如果预测失败会发生什么?如果婴儿用品的优惠券寄错地址又会发生什么?显而易见,数据质量差将可能是企业名誉受损,从而在竞争中处于不利地位。

2.4 无形成本
数据质量差带来的沟通成本,运营成本以及经济损失属于有形成本,可衡量的。而基于不准确的数据所做出的错误决策造成的成本是无形,这种无形成本还可能导致更大更严重的影响。
要让领导相信数据,首先要提供高质量的数据!

2.5 运营风险
低质量的数据不仅会给企业带来经济上的损失,增加企业的运营成本,给企业的声誉带来影响,还可能存在潜在的运营风向。
运营风险是与企业核心业务职能执行相关的风险,很大程度上与人员,流程和日常业务活动所使用的系统有关,主要包括内部流程,外部监管,法定业务,人力资源等方面的风险。例如:数据质量差,不满足监管部门的要求,面临审计不通过的风险;数据质量差,会给数据所产生的衍生品带来负面影响,引起用户的不满和质疑,甚至引发纠纷等。

3.什么是数据质量维度
数据质量类似于人类健康。影响健康的因素有很多,比如饮食、运动、情绪等,准确测量这些健康的影响因素非常困难。同样,准确测量数据质量中影响业务的数据元素也非常困难。数据质量差对业务而言是不“健康”的,数据质量维度将帮助我们认识数据质量对业务的重要性。数据质量维度就是用来测量或评估数据质量的各方面,通过测量维度来对数据质量进行量化,通过改进数据质量维度来提高数据质量。针对不同的数据集,数据质量维度可能不同,一般包含数据的一致性,完整性,唯一性,准确性,真实性,及时性和关联性。

247210bk-2.png

3.1 一致性
数据一致性主要体现在多个数据源之间:
第一,多个数据源之间的元数据的一致性;主要包括命名一致性、数据结构一致性、约束规则一致性等
第二,多个数据源之间数据记录的一致性。主要包括数据编码的一致性、命名及含义的一致性、数据分类层次的一致性、数据生命周期的一致性等
在相同的数据有多个副本的情况下,也会产生数据不一致、数据内容冲突等问题。

3.2 完整性
数据完整性主要体现三个方面:
第一,数据模型的完整性,例如唯一性约束的完整性、参照数据的完整性;
第二,数据记录的完整性,例如数据记录是否丢失或数据是否不可用;
第三,数据属性的完整性,例如数据属性是否存在空值等。
不完整的数据的价值会大大降低,数据完整性是数据质量问题中最为基础和常见的一类问题。

3.3 唯一性
数据唯一性用于识别和度量冗余数据。冗余数据是导致业务无法协同,流程无法追溯的重要因素。例如,主数据治理中的“一物多码,多物一码”问题。为每个数据实体赋予唯一的“身份ID”是数据治理需要解决的基本问题。

3.4 准确性
数据准确性也叫可靠性,用于分析,识别和度量不准确或无效的数据。数据准确性体现为数据描述是否准确,数据计算是否准确,数据的值是否准确等。不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。

3.5 真实性
数据真实性用于度量数据是否真实、是否正确地表达了所描述事物和现象的真实构造。真实可靠的原始数据是数据分析的灵魂。但事实上,数据的真实性往往难以保证,有时候数据不真实并不是因为原始的数据记录有问题,而是人为因素所致,尤其是一些需要层层上报的数据,数据失真很常见。

3.6 及时性
数据的及时性是指能否在需要的时候获得数据。统计学认为,获得数据的时间不应当超过该数据对未来经济或业务产生影响的平均时间。数据也是有时效性的,过期数据的价值大打折扣。

3.7 关联性
数据关联性用于度量存在关系的数据,即关联关系是否缺失或错误。数据关联关系包括函数关系,相关系数,主外键关系,索引关系等。    数据之间存在关联性问题会影响分析的结果。

4.什么是数据质量测量
数据质量测量是指为了达到某一预期,按照一定的标准从数据质量维度进行衡量,以确定数据达到预期的程度。通过测量,我们可以在不同对象之间跨越不同时间,不同空间进行比较,从而做出决策。
要保证达成数据预期,首先要保证数据质量测量是有效的。有效的测量的几个特点。

4.1 数据测量必须要有目的
古人用“风马牛不相及”来形容互不相干的事物,我们也经常说“不能拿苹果和香蕉比较”,意思是苹果和香蕉差异大,拿它们进行比较没有意义。这意味着要有两个“相同”的对象,才能形成有意义的测量。
当然,苹果和香蕉之间也有共同之处,比如它们都是水果,都有果皮,果肉中都含有维生素和糖分。它们也有不同之处:香蕉是长的,苹果是圆的;香蕉是黄色的,苹果有红色的、绿色的、黄色的;它们的口感也不一样。
那么,我们为什么要比较它们呢?这是问题的关键,我们需要一个“原因”来测量我们要测量的东西。

4.2 数据质量测量必须可重复
测量涉及一个对比前后的变化程度,只与抽象的结果比较是远远不够的。就像我们测量孩子的身高,孩子身高是会随着时间的推移发生变化的,重复的测量能够让我们获得这种变化的规律和程度。这就是为什么测量必须是可重复的,而不能是单次的。重复的测量意味着对事物真实性的持续探索。

4.3 数据质量测量必须可解释
数据质量测量的可解释性是保证数据测量有效的前提。如果人们无法理解被测量的是什么,那么这个测量结果就是无用的,不能帮助人们减少不确定性。
例如:企业通过统计职工的平均年龄来分析员工的年龄结构。一般认为:企业员工平均年龄在30岁以下,说明这个企业比较有活力;平均年龄在30~40岁之间,说明企业是以中青年劳动力为主力军,员工年龄结构处于合理区间;平均年龄超过45岁,说明企业的老龄化程度较高。如果企业员工的平均年龄超过了60岁,这就很难理解了,是统计数据出了问题,还是企业就只有几名老员工?
用不能被理解的方式进行测量,或者测量的结果不能被理解,都是无意义的。数据测量既是一个交流的工具,也是一个分析的工具。

5. 什么是数据质量管理
上面我们已经知道什么是数据质量,数据质量的维度 和 数据质量测量,那什么是数据质量管理呢?
数据质量管理就是 指对数据从计划,获取,存储,共享,维护,应用到消亡,这整个生命周期的每一个阶段可能引发的数据质量问题,进行识别,测量,监控,预警等一系列管理活动,并通过改善和提高组织的管理水平,使数据质量获得进一步的提高。数据质量管理的终极目标:通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。
我们可以简单地将数据质量管理理解为一种业务原则,需要将合适的人员、流程和技术进行有机整合,改进数据质量各维度的数据问题,提高数据质量。实际上,企业数据治理的各个关键领域和关键活动都是围绕如何提升数据质量,以获得更大的业务成果或经济利益而展开的。
数据质量管理是数据治理的重要组成部分,通常用在数据模型设计、数据资产管理、主数据管理、数据仓库等解决方案中。 数据质量管理可以是反应性的被动管理,也可以是预防性的主动管理。很多公司将数据质量管理的技术与企业管理的流程相结合,用来提升主动管理数据质量的能力,这是一个很好的实践。

6. 数据质量管理策略和技术
数据质量管理包含正确定义数据标准,并采用正确的技术、投入合理的资源来管理数据质量。数据质量管理策略和技术的应用是一个比较广泛的范畴,它可以作用于数据质量管理的事前、事中、事后三个阶段。数据质量管理应秉持预防为主的理念,坚持将“以预控为核心,以满足业务需求为目标”作为工作的根本出发点和落脚点,加强数据质量管理的事前预防、事中控制、事后补救的各种措施,以实现企业数据质量的持续提升

247210bk-3.png

6.1 事前预防
事前预防即防患于未然,是数据质量管理的上上之策。数据质量管理的事前预防可以从组织人员、标准规范、制度流程三个方面入手。

6.1.1 加强组织建设
企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织机制的保障。建立数据质量管理的组织体系,明确角色职责并为每个角色配置适当技能的人员,以及加强对相关人员的培训和培养,这是保证数据质量的有效方式。
(1)组织角色设置
企业在实施数据质量管理时,应考虑在数据治理整体的组织框架下设置相关的数据质量管理角色,并确定他们在数据质量管理中的职责分工。常见的组织角色及其职责如下。
数据治理委员会:为数据质量定下基调,制定有关数据基础架构和流程的决策。数据治理委员会确保在整个企业范围内采用与数据质量相关的类似方法和政策,并在组织的所有职能部门之间进行横向调整。数据治理委员会定期开会以新的数据质量目标,推动测量并分析各个业务部门内数据质量的状态。
数据分析师:负责数据问题的根因分析,以便为数据质量解决方案的制定提供决策依据。
数据管理员:负责将数据作为公司资产进行管理,保障数据质量,例如定期数据清理、删除重复数据或解决其他数据问题。
(2)加强人员培训
数据不准确的主要原因是人为因素,加强对相关人员的培训,提升人员的数据质量意识,能够有效减少数据质量问题的发生。
数据质量管理培训是一个双赢的过程。对于员工来说,通过培训,自己不仅能够认识到数据质量对业务和管理的重要性,还能学习到数据管理理论、技术、工具等知识和技能,确保上游业务人员知道他们的数据对下游业务和应用程序的影响,让自己在工作中尽可能不犯错、少犯错,提高自己的业务处理效率和质量。对于企业来说,通过培训,可以使数据标准得到宣贯,提升员工的数据思维和对数据的认识水平,建立起企业的数据文化,以支撑企业数据治理的长治久安。
此外,企业应鼓励员工参加专业资格认证的培训,这样能够让相关人员更加系统地学习数据治理知识体系,提升数据管理的专业能力。

6.1.2 落实数据标准
数据标准的有效执行和落地是数据质量管理的必要条件。数据标准包括数据模型标准、主数据和参考数据标准、指标数据标准等。
(1)数据模型标准
数据模型标准数对数据模型中的业务定义、业务规则、数据关系、数据质量规则等进行统一定义,以及通过元数据管理工具对这些标准和规则进行统一管理。在数据质量管理过程中,可以将这些标准映射到业务流程中,并将数据标准作为数据质量评估的依据,实现数据质量的稽查核验,使得数据的质量校验有据可依,有法可循。
(2)主数据和参考数据标准
主数据和参考数据标准包含主数据和参考数据的分类标准、编码标准、模型标准,它们是主数据和参考数据在各部门、各业务系统之间进行共享的保障。如果主数据和参考数据标准无法有效执行,就会严重影响主数据的质量,带来主数据的不一致、不完整、不唯一等问题,进而影响业务协同和决策支持。
(3)指标数据标准
指标数据是在业务数据基础上按照一定业务规则加工汇总的数据,指标数据标准主要涵盖业务属性、技术属性、管理属性三个方面。
指标数据标准统一了分析指标的统计口径、统计维度、计算方法的基础,不仅是各业务部门共识的基础,也是数据仓库、BI项目的主要建设内容,为数据仓库的数据质量稽查提供依据。






6.1.3 制度流程保障
(1)数据质量管理流程
数据质量管理是一个闭环管理流程,包括业务需求定义、数据质量测量、根本原因分析、实施改进方案、控制数据质量。
247210bk-4.png

① 业务需求定义
笔者的一贯主张是:企业不会为了治理数据而治理数据,背后都是为了实现业务和管理的目标,而数据质量管理的目的就是更好地实现业务的期望。
第一,将企业的业务目标对应到数据质量管理策略和计划中。
第二,让业务人员深度参与甚至主导数据质量管理,作为数据主要用户的业务部门可以更好地定义数据质量参数。
第三,将业务问题定义清楚,这样才能分析出数据数量问题的根本原因,进而制定出更合理的解决方案。
② 数据质量测量
数据质量测量是围绕业务需求设计数据评估维度和指标,利用数据质量管理工具完成对相关数据源的数据质量情况的评估,并根据测量结果归类数据问题、分析引起数据问题的原因。
第一,数据质量测量以数据质量问题对业务的影响分析为指导,清晰定义出待测量数据的范围和优先级等重要参数。
第二,采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下的方法是以业务目标为出发点,对待测量的数据源进行评估和衡量;自下而上的方法是基于数据概要分析,识别数据源问题并将其映射到对业务目标的潜在影响上。
第三,形成数据治理评估报告,通过该报告清楚列出数据质量的测量结果。
③ 根本原因分析
产生数据质量问题的原因有很多,但是有些原因仅是表象,并不是根本原因。要做好数据质量管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
④ 实施改进方案
没有一种通用的方案来保证企业每个业务每类数据的准确性和完整性。企业需要结合产生数据问题的根本原因以及数据对业务的影响程度,来定义数据质量规则和数据质量指标,形成一个符合企业业务需求的、独一无二的数据质量改进方案,并立即付诸行动。
⑤ 控制数据质量
数据质量控制是在企业的数据环境中设置一道数据质量“防火墙”,以预防不良数据的产生。数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口设置的数据问题测量和监控程序,在数据环境的源头或者上游进行的数据问题防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。
(2)数据质量管理制度
数据质量管理制度设置考核KPI,通过专项考核计分的方式对企业各业务域、各部门的数据质量管理情况进行评估。以数据质量的评估结果为依据,将问题数据归结到相应的分类,并按所在分类的权重进行量化。总结发生数据质量问题的规律,利用数据质量管理工具定期对数据质量进行监控和测量,及时发现存在的数据质量问题,并督促落实改正。
数据质量考核制度实行奖惩结合制,每次根据各业务域数据质量KPI的检核情况,给予相应的奖罚分值,并将数据质量专项考核结果纳入对人员和部门的整体绩效考核体系中。
数据质量管理制度的作用在于约束各方加强数据质量意识,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源、主动解决。

6.2 事中控制
数据质量管理的事中控制是指在数据的维护和使用过程中监控和管理数据质量。通过建立数据质量的流程化控制体系,对数据的创建、变更、采集、清洗、转换、装载、分析等各个环节的数据质量进行控制。


247210bk-5.png

6.2.1 加强数据源头的控制
“问渠那得清如许,为有源头活水来。”了解数据的来源对于企业的数据质量至关重要,从数据的源头控制好数据质量,让数据“规范化输入、标准化输出”是解决企业数据质量问题的关键所在。企业可以考虑从以下几个方面做好源头数据质量的管理。
(1)维护好数据字典
数据字典是记录标准数据、确保数据质量的重要工具。数据会随着时间累积,如果数据积累在电子表格等非正式数据系统中,那么这些宝贵的数据就可能会存在一定的风险,例如可能会随着关键员工的离职而丢失。通过建立企业级数据字典对企业的关键数据进行有效标识,并清晰、准确地对每个数据元素进行定义,可以消除不同部门、不同人员对数据可能的误解,并让企业在IT项目上节省大量时间和成本。
(2)自动化数据输入
数据质量差的一个根本原因是人为因素,手动输入数据,很难避免数据错误。因此,企业应该考虑自动化输入数据,以减少人为错误。一个方案,只要系统可以自动执行某些操作就值得实施,例如,根据关键字自动匹配客户信息并自动带入表单。
(3)自动化数据校验
对于疾病,预防比治疗更容易,数据治理也一样。我们可以通过预设的数据质量规则对输入的数据进行自动化校验,对于不符合质量规则的数据进行提醒或拒绝保存。数据质量校验规则包括但不限于以下几类。

数据类型正确性:数字、整数、文本、日期、参照、附件等。
数据去重校验:完全重复的数据项、疑似重复的数据项等。
数据域值范围:最大值、最小值、可接受的值、不可接受的值。
数据分类规则:用来确定数据属于某个分类的规则,确保正确归类。
单位是否正确:确保使用正确的计量单位。
数据权限的识别:数据新增、修改、查看、删除、使用等权限是否受控,例如,数据字段中是否包含不能向游客开放的专有信息。
(4)人工干预审核
数据质量审核是从源头上控制数据质量的重要手段,采用流程驱动的数据管理模式,控制数据的新增和变更,每个操作都需要人工进行审核,只有审核通过数据才能生效。例如:供应商主数据发生新增或变更,就可以采用人工审核的方式来控制数据质量。
6.2.2 加强流转过程的控制
数据质量问题不止发生在源头,如果以最终用户为终点,那么数据采集、存储、传输、处理、分析中的每一个环节都有可能出现数据质量问题。所以,要对数据全生命周期中的各个过程都做好数据质量的全面预防。数据流转过程的质量控制策略如下。
(1)数据采集
在数据采集阶段,可采用以下质量控制策略:

明确数据采集需求并形成确认单;
数据采集过程和模型的标准化;
数据源提供准确、及时、完整的数据;
将数据的新增和更改以消息的方式及时广播到其他应用程序;
确保数据采集的详细程度或粒度满足业务的需要;
定义采集数据的每个数据元的可接受值域范围;
确保数据采集工具、采集方法、采集流程已通过验证。
(2)数据存储
在数据存储阶段,可采用以下质量控制策略:
选择适当的数据库系统,设计合理的数据表;
将数据以适当的颗粒度进行存储;
建立适当的数据保留时间表;
建立适当的数据所有权和查询权限;
明确访问和查询数据的准则和方法。
(3)数据传输
在数据传输阶段,可采用以下质量控制策略:
明确数据传输边界或数据传输限制;
保证数据传输的及时性、完整性、安全性;
保证数据传输过程的可靠性,确保传输过程数据不会被篡改;
明确数据传输技术和工具对数据质量的影响。
(4)数据处理
在数据处理阶段,可采用以下质量控制策略:
合理处理数据,确保数据处理符合业务目标;
重复值的处理;
缺失值的处理;
异常值的处理;
不一致数据的处理。
(5)数据分析
确保数据分析的算法、公式和分析系统有效且准确;
确保要分析的数据完整且有效;
在可重现的情况下分析数据;
基于适当的颗粒度分析数据;
显示适当的数据比较和关系。
6.2.3 事中控制的相关策略
(1)质量规则的持续更新
数据质量管理不是一次性的工作,而是一个不间断的过程,企业需要定期检查数据质量规则对业务的满足度,并不断改进它们。另外,企业和业务环境在不断变化,因此企业需要提出新的数据质量规则来应对这些变化。
(2)数据质量的持续监控
DQAF给出了一种数据质量的持续监控方法,叫作联机测量,它强调利用数据质量管理工具的自动化功能,将定义好的数据质量规则作用于数据测量对象(数据源),实现对数据质量有效性的持续性检查,以便发现数据质量问题和确定改进方案。
(3)使用先进的技术
我们可以利用人工智能技术来进行数据质量监控、评价和改善,以应对不断增加的数据和日趋复杂的数据环境等的挑战。人工智能技术在数据质量管理中的应用包括:

更好地识别和解析企业的数据;
更好地了解和量化数据质量;
更好地进行数据质量问题分析;
更好地进行数据匹配和删除重复数据;
更好地丰富企业的数据。
(4)数据质量预警机制
数据质量预警机制用于对在数据质量监控过程中发现的数据质量问题进行预警和提醒。例如,通过微信、短信的形式提醒数据管理员发生了数据质量问题,通过电子邮件的形式向数据管理员发送数据质量问题列表等,以便相关人员及时采取改善或补救措施。
(5)数据质量报告 数据质量报告有利于清晰地显示数据质量测量和评估情况,方便相关数据质量责任人分析数据问题,制定处理方案。数据质量报告有两种常见的形式:一种是以仪表板的形式统计数据质量问题,显示数据质量KPI,帮助数据管理者分析和定位数据质量问题;另一种是生成数据质量问题日志,该日志记录了已知的数据问题,能够帮助企业预防数据质量问题和执行数据清理活动。
6.3 事后补救
是不是做好了事前预防和事中控制就不会再有数据质量问题发生了?答案显然是否定的。事实上,不论我们采取了多少预防措施、进行了多么严格的过程控制,数据问题总是还有“漏网之鱼”。你会发现只要是人为干预的过程,总会存在数据质量问题,而即使抛开人为因素,数据质量问题也无法避免。为了尽可能减少数据质量问题,减轻数据质量问题对业务的影响,我们需要及时发现它并采取相应的补救措施。

6.3.1 定期质量监控
定期质量监控也叫定期数据测量,是对某些非关键性数据和不适合持续测量的数据定期重新评估,为数据所处状态符合预期提供一定程度的保证。定期监控数据的状况,为数据在某种程度上符合预期提供保障,发现数据质量问题及数据质量问题的变化,从而制定有效的改进措施。
定期质量监控就像人们定期体检一样,定期检查身体的健康状态,当某次体检数据发生明显变化时,医生就会知道有哪些数据出现异常,并根据这些异常数据采取适当的治疗措施。对于数据也一样,需要定期对企业数据治理进行全面“体检”,找到问题的“病因”,以实现数据质量的持续提升。

6.3.2 数据问题补救
尽管数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%的数据问题防治,甚至过于严格的数据质量控制还会引起其他数据问题。因此,企业需要不时进行主动的数据清理和补救措施,以纠正现有的数据问题。
(1)清理重复数据
对经过数据质量检核检查出的重复数据进行人工或自动处理,处理的方法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果重复的记录不完全相同,则将两条记录合并为一条,或者只保留相对完整、准确的那条。
(2)清理派生数据
派生数据是由其他数据派生出来的数据,例如:“利润率”就是在“利润”的基础上计算得出的,它就是派生数据。而一般情况下,存储派生出的数据是多余的,不仅会增加存储和维护成本,而且会增大数据出错的风险。如果由于某种原因,利润率的计算方式发生了变化,那么必须重新计算该值,这就会增加发生错误的机会。因此,需要对派生数据进行清理,可以存储其相关算法和公式,而不是结果。
(3)缺失值处理
处理缺失值的策略是对缺失值进行插补修复,有两种方式:人工插补和自动插补。对于“小数据”的数据缺失值,一般采用人工插补的方式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,一般采用自动插补的方式进行修复。自动插补主要有三种方式:

利用上下文插值修复;
采用平均值、最大值或最小值修复;
采用默认值修复。
当然,最为有效的方法是采用相近或相似数值进行插补,例如利用机器学习算法找到相似值进行插补修复。
(4)异常值处理
异常值处理的核心是找到异常值。异常值的检测方法有很多,大多要用到以下机器学习技术:

基于统计的异常检测;
基于距离的异常检测;
基于密度的异常检测;
基于聚类的异常检测。
检测出异常值后,处理就相对简单了,有如下处理方法:
删除异常值;
数据转换或聚类;
替换异常值;
分离对待
6.3.3 持续改进优化
数据质量管理是个持续的良性循环,不断进行测量、分析、探查和改进可全面改善企业的信息质量。通过对数据质量管理策略的不断优化和改进,从对于数据问题甚至紧急的数据故障只能被动做出反应,过渡到主动预防和控制数据缺陷的发生。
247210bk-6.png

经过数据质量测量、数据问题根因分析以及数据质量问题修复,我们可以回过头来评估数据模型设计是否合理,是否还有优化和提升的空间,数据的新增、变更、采集、存储、传输、处理、分析各个过程是否规范,预置的质量规则和阈值是否合理。如果模型和流程存在不合理的地方或可优化的空间,那么就实施这些优化。
事后补救始终不是数据质量管理的最理想方式,建议坚持以预防为主的原则开展数据质量管理,并通过持续的数据质量测量和探查,不断发现问题,改进方法,提升质量。

7. 总结
数据质量影响的不仅是信息化建设的成败,更是影响企业业务协同、管理创新、决策支持的核心要素。对于数据质量的管理,坚持“垃圾进,垃圾出”的总体思想,坚持“事前预防、事中控制、事后补救”的数据质量管理策略 ,持续提升企业数据质量水平。尽管可能没有一种真正的万无一失的方法来防止所有数据质量问题,但是使数据质量成为企业数据环境DNA的一部分将在很大程度上能够获得业务用户和领导的信任。
随着大数据的发展,企业用数需求与日俱增,解决数据质量问题变得比以往任何时候都重要。技术的发展、业务的变化、数据的增加让企业的数据环境日益复杂多变。因此,企业的数据质量管理是一个持续的过程,永远也不会出现所谓的“最佳时机”,换句话说,企业进行数据质量管理的最佳时机就是现在!



作者: 教你学懂大数据


欢迎关注微信公众号 :教你学懂大数据