大型企业数据质量治理提升思考

数据质量提升是当前大数据应用基础性工作,由于数据治理涉及处理任务重,使用角色多,各类技术适配复杂等因素,数据质量提升工作往往给人感觉投入大,见效慢等错觉。客观上数据质量治理是一个系统的工程,需要在机制、制度、流程、工具、管理等方面综合发力,也是企业开展和实施数字化转型的基础性工作。国网已经开展数据质量管理工作多年,初步建立了相关数据管理的组织和基础管理制度。目前尚需要在统一规划基础上,深入推进相关数据质量管理工作。
在具体开展上,可以解决外部数据治理经验基础上,从数据溯源、业务适配、技术支持、流程规范和工具部署等方面逐层落实,系统推进。
、总体思路
按照以应用促治理的原则,选择部分省市试点,结合当前开展的监测业务和运监管理要求,通过强化基础管理,提高数据管控质量,细化流程管理,提高数据联合治理,细化数据运营,提高业务目标导向,部署数据工具,提高数据质量管理。
通过数据、业务、技术、管理、工具五个层面的综合作用,持续提升数据质量管理水平。强化数据管理,重点做好集团归集数据的质量稽核和资产目录工作;强化业务适配,联合业务部门组好数据需求的精准对接;强化技术支持,通过系统接口方式完成数据的自动化部署;强化基础管理,建立集团省市三级数据质量管理机制;强化工具支持,通过系列轻量数据工具固化数据质量质量成果并鼓励数据质量治理的参与人。
、治理措施
[if !supportLists](一) [endif]精细数据溯源,提升归集数据质量
当前运监中心基于数据质量管理和应用要求,每月固定从网省归集相关的业务运营数据。但在归集工作中,存在归集数据和规模不匹配,数据字段缺失或数据不合理等问题,而上述问题的发现当前主要通过人工手段进行数据稽核。结合当前现状,需要从数据规则、数据匹配、数据趋势和负面清单四个方面细化数据稽核工作,提升数据归集质量。
[if !supportLists]1、[endif]细化归集数据规范
集团层面需要建立统一的归集数据库,以保证合规数据的便捷调用和处理。为了保证各网省上传的数据准确合理,需要细化和规范归集数据要求。重点从数据来源,数据字段、数据规模、数据周期、数据安全等方面进行。在数据来源上,重点明确对接的系统,以保证数据来源的一致性。在数据字段上,要对数据值进行统一的规范。在数据规模上,重点明确归集数据的取值范围和覆盖内容。数据周期主要是对数据的时效要求。数据安全是指数据上传前所需完成的脱敏要求。基于52项运监常态监测工作、14个业务部门共享需求等信息,匹配相关数据需求,明确数据来源,基本数据质量要求,数据获取的流程等信息。涵盖数据分类、数据归属、数据字段、数据形式、数据时效等。
[if !supportLists]2、[endif]交叉匹配数据
当网省数据初步归集后,需要借助集团数据和系统资源,对归集数据进行交叉验证。即通过对数据字段中统一单位、身份、设备、地址等进行数据的关联和匹配,通过其他系统的数据对网省的归集数据进行交叉关联,以明确数据的一致性、准确性和合理性。需要注意的是,作为被引用的验证数据要保证是质量较高的数据。
[if !supportLists]3、[endif]数据稽核规则
梳理并持续完善归集数据的稽核规则库。通过分析归集数据规模和业务单位规模,归集数据字段的合规性,有效性,形成归集数据质量的判定规则,规则范围可以从归集数据规模合理性,字段有效性,字段间一致性等,通过持续的积累和细化规则库,一方面便于管理人员发现归集数据存在的问题,另一方面通过规则库的IT化部署,便于后续通过数据稽核自动化工具的开发上线。
[if !supportLists]4、[endif]数据趋势分析
通过归集数据库的建立,可以形成各类常态归集数据的历史数据,进而形成各单位各类指标数据的上下限数据痕迹,通过对归集数据各字段数据值的判定,对于符合历史趋势值的可以不做拦截,对于超出历史极限值或出现较大异常增长和降低的数据作为预警数据供人工判断。通过简历历史数据趋势规则,便于在第一时间判定归集数据的质量。
[if !supportLists]5、[endif]负面清单跟踪
归集数据的数据稽核工作是一个常态化的长期性工作,在数据稽核中出现的问题有的可以当前解决,有些由于技术或组织的原因需要持续跟踪。为了便于跟踪数据稽核中出现的问题,并形成相关问题解决的闭环机制。建立归集数据的负面清单。清单中以数据和使用单位为对象,分别记录相关数据稽核中存在的问题。可以将数据问题分类为已解决,待解决,待支持三种类型。已解决主要定义数据问题已经整改,待解决是问题正在解决中,待支持,是需要技术支持完成问题的确认和整改。通过负面清单管理,一方面记录和分析共性的数据问题,另一方面避免重复问题的往复,将资源集中在可以马上产生效益的问题解决上。
[if !supportLists](二) [endif]适配业务需求,形成数据需求图谱
数据的价值在于应用。以业务为导向,合理控制数据规模,满足当期业务分析需求,是推进数据质量提升工作的基础。脱离业务需求分析,数据质量治理的范围和要求就缺失了目标,数据质量就缺少了可以衡量的准确标尺。
1、建立业务需求数据对照表
在集团统计归集数据库管理基础上,各业务单位根据当前数据库的资源情况,提出并反馈自身的业务分析要求。并就相关数据质量要求如字段、取值、周期等。集团通过收集各业务单位的数据需求,综合评估当前归集数据,形成业务-数据对照表。通过此种方式,以更好的覆盖业务单位的数据需求,同时在后续数据质量管理上,综合业务部门意见综合治理。
2、形成业务模型数据稽核规则
通过多系统数据规则交叉适配,数据规则稽核后的归集数据某种程度上经过初步的数据治理,但是否满足业务部门的应用需求还需要结合业务分析的具体场景和使用过程来判断。通过总结梳理业务分析目标,形成基于特定需求的业务模型,一方面便于数据的分析使用,另一方面形成了初步的数据质量判断规则,从业务应用角度对数据的质量做了新的定义和要求。如通过地区用电量模型能够评估数据是否在值是否在历史或同类地区数据值范围,以便于发现异常数据,并判断数据是否存在异常,定位数据问题便于后续应用。
3、业务需求数据反馈表
通过业务数据反馈表,主要是配合业务需求表,通过业务数据模型后,就相关模型规则,当期和往期业务数据质量综合应用情况,以量表的方式反馈给业务部门,便于业务部门后续业务分析,并在业务规则或模型变化的时候,及时和数据管理单位保持一致。在实际应用过程中,可以将业务数据匹配表和业务数据反馈表综合,便于相关管理工具的使用。
[if !supportLists](三) [endif]综合技术支持,形成独立分析环境
为了便于归集数据库的管理和应用,需要建立独立专业的数据分析环境。通过专业化的平台,一方面便于业务单位登录和使用,另一方面,通过部署专业的管理工具和技术支持,提升数据归集效率,并持续推动数据的深度应用
[if !supportLists]1、[endif]建立基于归集数据的数据仓库
通过归集数据的独立部署,形成归集数据仓库,并通过开源工具的部署,对接全业务平台。支持调用大数据平台的计算能力。对于通过数据质量核查的数据,定期导入数据仓库。数据仓库处理后的数据,可以和大数据平台双向对接。通过数据仓库的部署,可以将满足应用要求的合规的数据进行统一部署,并根据后续应用和对接要求,做统一的数据融合和标准化处理。通过此项工作,将大量的数据处理过程进行了固化,避免数据的重复处理,并形成了高质量数据的部署和存储。在具体存储方式上,可以采用分布式方式,数据仓库进行总体的调用。
[if !supportLists]2、[endif]通过技术手段数据采集稽核的自动化
在数据质量管理过程中,前期通过业务运营和人工梳理方式,形成了大量的数据规则,数据匹配规则,数据业务模型等,通过将其部署到数据仓库上,建立数据仓库实时接口,在数据归集环节,就实现数据质量的稽核和质量评估,并将结果反馈给相关单位。从数据归集的源头,提升了数据归集的质量。
[if !supportLists]3、[endif]拓展应用接口,形成能力开放
区别于其他数据平台,归集数据仓库是以业务应用为导向的,所以在系统建设上会设计能力开发界面,面向前端提供业务分析,数据评估等工具。便于业务人员快速的关联数据源,实现对数据源的质量探查和筛选,并通过可视化工具对数据进行初步分析和分享。满足短平快的数据探索和分析过程。
[if !supportLists](四) [endif]强化基础管理,规范数据稽核流程
前期实践过程中,数据治理的拿点不在发现问题而在于解决问题。由于系统建设单位,责任主体分散,往往一个小的数据问题因为找不到对的人而变的困难。所以进一步夯实数据质量基础管理工作,是保证上述工作的基础
[if !supportLists]1、[endif]形成总部-网省-地市三级评估机制。
明确数据质量治理目标,形成工作制度和内容,集团总部统筹,建立三级协同的数据质量管理工作机制,其中总部负责制定数据质量标准、提升计划;网省负责依据标准核查数据质量、监控数据质量指标、督促问题整改;地市公司负责具体落实数据质量问题整改要求。完善总部-网省-地市三级沟通机制。通过培训和标准手册保证相关单位准确理解数据归集要求,并收集相关数据归集问题
[if !supportLists]2、[endif]完善数据稽核管理流程。
为保证数据归集工作及时、高效,需要建立标准化的数据质量稽核流程。基础数据系统检测,专项业务数据专项评估,数据质量问题及时通报,并及时同步相关责任主体。形式数据采集、检查、反馈、复验的闭环流程。建立数据质量档案制度。统计和评估各单位历史归集数据的规模、类别、质量、趋势等信息,便于各单位针对性的提升数据质量管理中的薄弱点。
[if !supportLists]3、[endif]建立数据质量评估指标体系。
围绕数据质量治理工作的特点,建立覆盖数据部署、数据加工、数据分析和数据应用层面的质量指标体系,通过定量和定性分析相结合,定期评估当前数据质量提升工作的成果和不足,并基于指标分析,针对性的做好数据质量提升工作
[if !supportLists](五) [endif]部署轻量工具,自助数据质量管理
开发数据质量稽核工具,促进数据共享。为全面践行“用数据说话、用数据管理、用数据决策、用数据创新”的理念,支持业务需求目标,通过开发数据质量稽核工具,支持集团和网省数据的定期归集、处理、分析和部署。实现日常数据归集工作自动化,并支持业务人员根据需求,定义数据分析质量要求,满足业务人员快速、定制调取数据的管理要求。全面评估当前数据的完整性、合规性、一致性、及时性、准确性。
最终实现常态化、体系化、标准化、自动化的全面数据质量管理,以达到数据质量控制的全面性、可控性、可度量性、可迅速定位和有效解决。主要功能如下:
[if !supportLists]1、[endif]基础信息管理
支持多种方式的信息采集。包括通过Agent、数据查询、日志监控、消息服务等多种方式进行实时的信息采集。针对数据的基本信息进行管理,包括编码、语义名称、业务描述、口径描述、归属分类等;
[if !supportLists]2、[endif]数据分类管理
采集各类IT 资源的配置数据、性能数据、告警数据进行采集,自动地将服务器、网络设备、应用系统等基本配置信息自动导入管控平台中,确保配置管理系统中的数据与实际生产环境一致,为支持IT服务流程管理以及IT信息资产管理提供基础信息服务提供保障
按照分析主体和业务进行分类,分析主体从客户、渠道、资源、合作伙伴、员工、竞争对手、产品等进行分类;按照业务进行分类;
[if !supportLists]3、[endif]数据溯源管理
两个方面:一方面数据字典与物理表及字段的对应关系管理,例如品牌这个数据字典,可能对应多个物理表的字段;另一方面针对物理表的生成及其生成规则进行管理,形成数据生成拓扑图;
[if !supportLists]4、[endif]生命周期管理
主要对数据的上线时间、存储周期、生成周期、使用频率、下线时间等信息进行管理。
[if !supportLists]5、[endif]数据质量监控
预定义了多种稽核算法,同时也支持自定义的稽核算法
检查方法检查描述适用场景
数值检查指标数值与阈值上下限的比较,阈值可以手工录入经验值或采用n个周期内指标的最大最小值作为阈值的上下限,需要考虑周末和节假日对指标的影响等主要适用变化趋势平稳的业务关键指标
波动检查波动检查包括同比波动检查和环比波动检查,先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值)进行比较,阈值可以手工录入经验值或采用n个周期内指标的最大最小值作为阈值的上下限,需要考虑周末和节假日对指标的影响等如业务发展类指标、用户数类指标等
平衡性检查通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系需要进行相关性检查的指标,如日指标汇总与月指标的平衡检查
加权波动检查通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况
关联性检查定义相关性指标,和指标相关系数,如正强相关,负相关,定义两个指标当前值是否满足相关性的特点主要用于考察多个指标之间的逻辑关系是否符合规律,如量收匹配的问题
一致性检查计算一个指标在不同的采集计算点的值是否一致如用户数在仓库底层的值,在应用汇总表值,在前台应用1,应用2中的值是否一致
值域评判直接对某个值进行评判或是否在允许的取值范围内容进行评判


[if !supportLists]6、[endif]质量信息预警与共享
能够实时展示全部的实时的信息,可以让运维监控人员一目了然看到系统各模块运行的进度、质量和告警。根据时间发生的顺序,可分为事前质量检查、事中运行监控、事后归纳总结,并能对各过程中所产生事件及信息形成告警信息,通过短信、彩信、邮件的形式进行发送
支撑保障
[if !supportLists](一) [endif]组织保障
建立数据质量治理专项小组。为推进数据质量专项管理,建立总部-网省协同专项小组。重点聚焦数据采集环节的质量提升工作,规范数据归集制度,细化数据质量检查方法,开发数据质量快捷评估工具。
形成三级数据质量稽核制度。建立总部、网省、地市三级的数据质量巡检机制,明确责任主体和责任人,贯彻落实数据质量治理专项小组的工作安排,宣传并配合做好数据质量提升工作。
[if !supportLists](二) [endif]技术保障
面向数据质量提升工作,需要建立配套的技术保障团队,近期细化数据检测规则的IT化工具开发,支持相关数据质量知识库建立。远期重点开发数据治理一体化运营平台及各项轻量级的面向业务前台的数据产品。
[if !supportLists](三) [endif]资源保障
数据质量治理工作是一项常态化的持续工组。需要每年安排固定的投入,组织专项的活动,持续鼓励和营造数据质量——如果你认为我是你在找的人,请和
我联系,让我们玩点不一样的。yanoon@163.com
【大型企业数据质量治理提升思考】治理的文化。

    推荐阅读