2019年以来,深水集团、杭州水务集团、重庆水务集团、苏州水务集团、郑州供水等众多大、中型水务企业相继启动了数据治理和大数据中心建设项目,水务行业如此密集地开展数据治理和数据中心建设,智慧水务的建设重心逐步发展变化:由建设营收、GIS、SCADA等MIS系统为主的业务数据化,逐步转变至以数据治理和大数据为主的数据业务化;由偏向于数据的生产转为更注重数据资源的管理和数据资产化,水务行业数字化转型迎来新的发展阶段。
图1 数据治理及大数据中心建设是热点
在杭州水务集团、郑州供水、苏州水务集团、江苏中法水务等多家水务企业的数据治理及大数据中心建设工作中,数据仓库建模方法论是一致的,但由于水务行业特性、业务场景的不同,在不同的水务企业,基于大数据的数据仓库建设无法按照统一的项目流程、开发模式进行,更多的是需要根据具体的业务场景结合新的技术体系进行灵活调整,以满足水务企业的实际情况和具体需求。
图2 某水务集团数据仓库工作历程
在实际数据仓库建设中,考虑到底层建设的工作量大,过程时间长,内容比较抽象、不易理解等特点,我们先对水务企业现有的数据资源进行盘点和评估,科普大数据中心建设知识,梳理各条业务线的大数据应用场景,确定数据入仓的范围,挑选各部门需求程度最高的大数据应用场景进行优先建设,一方面能快速看到数据仓库建设成果,另一方面也可以及时发现和调整建设过程中出现的问题,总结经验,为其他大数据应用场景建设打下基础,提高数据仓库建设效率,降低成本。
在数据仓库建设过程中,各水务企业数据仓库建设流程也会有所区别,但主要流程和重点环节基本一致,主要流程和重点环节介绍如下:
图3 数据入仓流程图
一、元数据采集:制定出各信息化系统的元数据清单
根据前期的需求调研,确定本次入仓的信息化系统,并向系统维护人员收集系统操作手册、数据字典等文档以及系统数据库相关信息。通过数据采集工具对各系统数据库的表和字段进行采集,结合各系统文档,确定数据库中所有表和字段的中文含义及字段的数据类型,形成元数据清单。
以营销管理系统数据入仓为例,需要明确哪张表是客户表,哪张是收费表,以及表中每个字段的中文含义。有些系统文档由于没有及时更新,与现有系统数据有不一致情况,则需要信息管理部门与系统开发厂家支持,获取比较准确的元数据清单。
图4 数据采集范围
二、数据筛选:在元数据清单基础上筛选出需要入仓的数据,制定入仓清单
针对元数据清单进行进一步的数据筛选,去除临时表和空表等无用表,确定核心数据表和维度表,提供给信息管理部门进行确认,形成最终入仓的数据表清单。
经过第一步元数据采集,形成元数据清单的过程,可以比较容易的识别出临时表和空表,重点放在空表是否确实为无用表上即可。
三、数据入仓:根据各数据表实际情况,制定出入仓方案,通过专用ETL工具将数据抽取至镜像数据仓库
根据待入仓的数据表清单,以及每张表的实际情况,制定出源数据和镜像数据仓库表之间的字段的映射关系,确定出每张表的入仓策略和抽取规则,是实时抽取还是定时抽取,是全量出抽取还是增量抽取,将规则配置入ETL工具,执行数据入仓。
将数据汇入镜像数据仓库时,因为数据通常来自多个系统多个数据库最终进入同一仓库中,镜像数据仓库对于数据表的命名有专门的原则和规范,与源数据库的表名会有所不同,需要将表名之间的映射关系做好记录,同时制定好每张表的同步规则,如考虑业务系统晚上使用较少,数据同步时间一般放在晚上,错峰同步;
以营销管理系统为例,系统中的组织机构表、客户表等数据不多、变化较小的表可以全量同步,而像抄表数据、收费数据等数据量较大的表可以使用增量同步。
四、数据质量检查:制定数据质量检查规则,定时进行数据质量检核,提升企业数据质量
根据元数据清单以及业务含义,定义出数据质量检查规范、评分标准、及每个字段检查规则,如户号是否唯一,手机号是否为11位数字,身份证号是否为国家规定的15位和18位规则,抄表读数是否为合理的数字范围等。
经过数据质量检核清洗,形成数据质量报告,并将报告结果和未通过检核的明细记录反馈至源系统,形成闭环,PDCA持续提升源数据库的数据质量。通过数据质量检核的数据,进入标准化数据仓库,供主数据管理和数据集市使用。
五、建立数据集市:从业务角度对入仓数据进行梳理,制定数据资产目录以及主数据和业务模型等数据标准,最终形成数据集市
对数据入仓清单进行专题数据识别,划分数据分类与主题,形成数据资产目录,制定出主数据和业务模型等相关数据标准。
制定数据资产目录主要是为了让非技术人员了解企业有哪些数据,因此在制定过程中一般从业务角度进行分类制定,方便业务人员理解。制定数据标准时,一方面需要考虑与现有系统的兼容性,另一方面应重点考虑未来的扩展性和统一性,方便企业对数据的应用,也为新系统建设提供指导。
六、数据应用:建设数据仓库最终是为了更好的应用数据,充分发挥数据在生产运营、营销客服、管理管控中的最大价值
通过数据仓库,水务企业可以拆掉“烟囱”,打破各系统中的数据壁垒,实现真正全面数据共享,同时也让水务企业的分析统计维度获得全面的提高,为企业管理带来新的视角和手段。
数据共享不仅让水务企业内部与外部、部门与部门间的数据获取与共享更方便更快速,也让每一位员工能够获取更全面的信息,提高工作效率,如客服人员不再只能查询营销管理系统内的用户信息,还能知道用户所属的二次加压泵房的工作状态、最近一次水箱清洗的时间、最近一次水质检查结果、附近管网情况、是否有抢修停水情况发生、当天附近是否还有其他用户来电反应相同事件、用水由哪几个水厂提供、附近是否有工作人员可以快速上门、用水由哪几个水厂提供等,真正实现从水源到龙头的管理。
同时通过基于AI算法的客户画像功能,可以识别出更多客户特征,方便业务人员为客户提供更为精细化有针对性的服务,如独居老人关怀、重点用户识别、异常用水分析、工作质量分析、客户服务分析等,支撑精准服务、个性化和主动服务,持续提升客户体验和获得感。
随着《关于加快推进国有企业数字化转型工作的通知》、《关于加快构建全国一体化大数据中心协同创新体系的指导意见》等众多利好政策的推出,数据作为重要的生产要素将逐步成为水务企业的经营理念——凭数据工作、凭数据决策、凭数据指挥。