检验检测信息管理: 400-686-4199 数据资产管理: 400-643-4668 供应链管理: 400-629-4066

有了Ta,数据清洗 so easy!

2020-01-08

主数据来源于多个业务系统且包含大量历史数据,不可避免地存在错误、冲突的数据,这些错误的或有冲突的数据就是 "脏数据"。

数据清洗顾名思义就是对“脏数据”进行清洗,是对主数据进行重新审查和校验的过程,包括检查主数据一致性、处理无效值和缺失值等,是发现并纠正主数据文件中可识别错误的最后一道程序。

数据清洗按照一定的规则把零散、重复、不完整的主数据清洗干净,得到精确、完整、一致、有效、唯一的主数据,从而提高主数据质量。

数据清洗是一个费时费力但又必不可少的工作。在数据清洗过程中,三维天地将根据客户的需求制定清洗方案。

主数据清洗方案一般有两种:

线下清洗

先对主数据进行清洗,导入系统后,系统再上线使用。在数据量不多的情况下,可以直接对数据进行清洗,对常见的几种数据问题进行逐一排查清洗,具体步骤如下:

第一步:对重复的主数据进行去重;

第二步:对空值进行补充;

第三步:按照主数据标准,对引用值不规范的数据进行统一调整;

第四步:调整主数据值的格式与标准一致;

第五步:删除冗余数据;

第六步:检查主数据中与标准不一致的数据项进行逐一调整。

一般情况,线下数据清洗是一个非常庞大的工作,数据质量越差,清洗的工作量就会越大。

为了提高工作效率,三维天地提供清洗工具来辅助清洗工作。既第二种数据清洗方式——线上数据清洗。

线上清洗

线上数据清洗先将初始化数据迁移到系统中,系统上线以后,建立数据清洗模型再对数据进行清洗。具体步骤如下:

第一步:清洗模型申请。新增一个清洗模型,选择模型编码,填写关联相似度及警告相似度。

第二步:配置清洗模型的显示列。选择需要参与清洗对比的列选项(参与相似对比的列必须启用,且只能是在全文检索索引设置中启用),保存成功并提交清洗模型。

第三步:审核清洗模型。审核成功的清洗模型可进行清洗操作。

清洗模型建好后,将要清洗的数据关联到清洗模型中,根据清洗模型和数据标准对数据进行清洗。大量主数据清洗时,可以划分阶段进行,保证数据清洗范围可控,不影响系统及相关业务系统的使用。划分原则可参考数据的申请时间、业务发生时间段、是否有库存等。

数据清洗过程中往往会出现很多判断问题,如:数据是否合乎标准,是否存在错误等,这些都可以通过相应算法实现判断。通过主数据清洗,可以保证主数据的唯一性、精确性、完整性、一致性、有效性,为各个应用系统以及后续的分析决策提供高质量的数据保障。

三维天地作为业界领先的信息标准化管理解决方案供应商,致力于为客户提供全方位高质量的信息标准化管理服务。从客户的实际需求出发,以先进的技术和定制化的服务赢得客户的信任和支持。使信息标准化管理得到更全面的推广,让更多的企业体会信息标准化管理的魅力,共创信息化管理新时代。