随着“数据”这一生产要素成为关系国计民生、社会进步与企业发展的关键要素,国家各行各业都在紧锣密鼓部署数字化建设大计。与数据价值、数据要素化、数据应用等相关的政策与意见层出不穷,近年来,相关行业产业更是如雨后春笋般涌现。其中,企业数据治理作为提升数据价值、赋能数据应用的必经之路,早已被众多心明眼亮的企业领导者提前纳入了工作章程。
(资料图)
然而,随着时间的推移,许多企业(其中不乏众多央企、国企及知名上市公司等)发现,数据质量问题如附骨之疽,即使经过数据治理项目后暂时运转得体面整洁,时间一长,老问题又会卷土重来,难以从根本上驱除,最终仍是迎来失败的结局。面对如此多失败的先例与市场中难以辨别优劣的各色厂家,原本规划开展数据治理项目的企业纷纷选择退至场外,继续观望。
什么是数据质量顽疾?它从何而来,又如何驱除?针对这些问题,中翰从多年数据治理经验中总结出以下答案:
一、何谓“顽疾”?
企业经历过一轮数据治理后,经过一段时间因为种种因素,数据质量又“重蹈覆辙”(数据质量又出现各种问题),需要再次进行数据治理工作。这种经过第二次甚至多次数据治理后数据质量仍难以达成理想目标的情况,正是我们所说的“顽疾痼疾”的体现。
二、“顽疾”从何而来?
顽疾难除,这些迎来失败结局的数据治理项目究竟踏入了怎样的误区,才留下了导致企业数据质量问题死灰复燃的祸端呢?中翰从以下几点进行分析:
(一)主数据的动态性、局限性造成的传统数据治理平台管理弊端
随着企业业务系统的扩充和变更,原本被识别出来的主数据由于无法满足新的业务系统的上线需求,需要不断扩充识别主数据,变更模型、流程。如此一来,主数据的动态性不仅使得主数据管理平台后期运维成本居高不下,还容易形成“体系两张皮”的现象。在空洞的行政制度中,数据管理组织及管理体系名存实亡。此外,从中翰实施数据治理工作的实际经验中可以看出,传统主数据治理难以满足企业对业务场景数据的管理需求,无法很好地保证业务场景的数据对现有业务以及未来数据中心的有效支撑。以上种种劣势,使得传统数据治理平台严重违背了企业数据管理的初衷。
(二)数据治理产品在处理数据质量问题时,广度、深度和持久度不足
广度:一般而言,数据治理产品的广度指其具备的功能结构,一般包括元数据管理、数据质量管理、主数据管理、数据生命周期管理、数据交换管理、数据清洗管理等功能。如果数据治理产品的广度不足,缺失关键/基本功能,则会对数据治理的整体效果造成影响。
深度:许多人认为,面向政府、金融、电信的数据治理产品要求的技术含量更高,处理的数据量更大。但根据中翰在实际情况中的体会来说,其处理数据问题的深度要更浅一些,因为这几个行业没有复杂的物资数据(模型分层级且非常多)存在,所有数据(如客户、人员等)的模型都是单一的,也就不存在深层次的数据质量问题。所以在企业数据治理中一旦遇到深层次的数据质量问题,此类产品就束手无策了。
持久度:数据治理成果的持久度是决定是否会出现数据质量“顽疾”的重要因素之一。中翰认为,要长久地保持高标准的数据质量,除产品本身应具备强有力的监测、分析功能,可实时探知数据质量异动之外,还应配以相应的问题处理机制,从而更好地实现数据质量的防微杜渐,为及时准确解决数据质量问题提供保障。
(三)日常数据管理沦为工具的操作,由工具带动企业数据管理的未来发展
数据治理产品的性能固然十分重要,但终究应服务于有差异化的数据治理体系、不同的工作人员及特定企业的数据治理进程。中翰已在实践中深刻领会到,各行业企业数字化转型进程与数据应用管理程度不尽相同,面对的数据问题更是五花八门。若一味只依赖工具的使用,不配以相应的学习与协同机制,项目结束后,企业很难根据实际情况对数据治理体系进行拓展与延伸,数据治理的效果也很难长期延续下去。
数据质量“顽疾“的产生有很多表现形式,如:企业内有质量问题的数据比例超过20%、集团二级单位单独开展主数据管理项目、企业开始寻求全面数据治理等等。
三、如何解决数据质量“顽疾“?
(一)彻底根除法
即原有体系全部推倒,重新开展数据治理项目。但重新再来一次的代价过于惨痛,一般的企业很少有这种魄力。有时,各种因素也不允许这样重新来过。
(二)亡羊补牢法
中翰认为,若使用亡羊补牢法,企业既可以解决数据质量问题,又不至于痛苦地重新再来一遍。所谓的亡羊补牢,就是指在不破坏现状的基础上最大可能地修补原有数据治理的架构,以确保数据质量得以保障。具体的方法如下:
1、重新梳理数据标准,确定数据标准是否有调整的必要。
2、全面检测数据质量,重新全面清洗、改造存量数据。
3、搭建数据质量评估监测平台,利用AI等技术构建数据质量的大数据行为模式的再评估、再处理体系。
除此之外,中翰根据多年实践积累,补充说明以下几点工作要点和实施理念:
1、实施数据治理知识转移,做到授人以渔
数据治理项目结束后的日常工作不只是操作平台,70%左右的时间是在研究如何扩展、完善现有的体系,此时数据治理的能力就会非常重要。中翰独创在线知识转移模式(数据体系构建工具)实现了数据治理能力的有效转移。利用平台沉淀下来多年积累的标准、经验,借用相关技术实现了知识的原子化加工、再优化组合等,定向服务于特定需求者(数据操作员、数据管理员等)。
数据体系构建工具可以辅助于数据治理管理体系的构建过程,有效实现运维管理期间在线实时再现数据咨询、实施过程的详细信息,有效延续数据治理思路到数据运维管理过程中,打通数据管理咨询和后期运维的知识通道。
2、增强企业数据治理工作自主性、协同性
通过行为约束的方式优化增量数据质量,是除技术以外最重要的数据质量控制方法,是指针对数据全生命周期(从数据建模开始到数据采集阶段的维护、验证、审核,再到数据生成、发布、分发,再到数据被使用、被应用分析,直至归档)的不同环节进行控制。数据质量控制的节点主要体现在两个阶段,一是在数据采集/验证(数据维护/审核)阶段,二是在数据生成、分发阶段。(山东中翰软件有限公司)