新闻资讯
海量资讯实时呈现
有了Ta,数据清洗 so easy!
2020-01-08
主数据来源于多个业务系统且包含大量历史数据,不可避免地存在错误、冲突的数据,这些错误的或有冲突的数据就是 "脏数据"。 数据清洗顾名思义就是对“脏数据”进行清洗,是对主数据进行重新审查和校验的过程,包括检查主数据一致性、处理无效值和缺失值等,是发现并纠正主数据文件中可识别错误的最后一道程序。 数据清洗按照一定的规则把零散、重复、不完整的主数据清洗干净,得到精确、完整、一致、有效、唯一的主数据,从而提高主数据质量。 数据清洗是一个费时费力但又必不可少的工作。在数据清洗过程中,三维天地将根据客户的需求制定清洗方案。 主数据清洗方案一般有两种: 线下清洗 先对主数据进行清洗,导入系统后,系统再上线使用。在数据量不多的情况下,可以直接对数据进行清洗,对常见的几种数据问题进行逐一排查清洗,具体步骤如下: 第一步:对重复的主数据进行去重; 第二步:对空值进行补充; 第三步:按照主数据标准,对引用值不规范的数据进行统一调整; 第四步:调整主数据值的格式与标准一致; 第五步:删除冗余数据; 第六步:检查主数据中与标准不一致的数据项进行逐一调整。 一般情况,线下数据清洗是一个非常庞大的工作,数据质量越差,清洗的工作量就会越大。 为了提高工作效率,三维天地提供清洗工具来辅助清洗工作。既第二种数据清洗方式——线上数据清洗。 线上清洗 线上数据清洗先将初始化数据迁移到系统中,系统上线以后,建立数据清洗模型再对数据进行清洗。具体步骤如下: 第一步:清洗模型申请。新增一个清洗模型,选择模型编码,填写关联相似度及警告相似度。 第二步:配置清洗模型的显示列。选择需要参与清洗对比的列选项(参与相似对比的列必须启用,且只能是在全文检索索引设置中启用),保存成功并提交清洗模型。 第三步:审核清洗模型。审核成功的清洗模型可进行清洗操作。 清洗模型建好后,将要清洗的数据关联到清洗模型中,根据清洗模型和数据标准对数据进行清洗。大量主数据清洗时,可以划分阶段进行,保证数据清洗范围可控,不影响系统及相关业务系统的使用。划分原则可参考数据的申请时间、业务发生时间段、是否有库存等。 数据清洗过程中往往会出现很多判断问题,如:数据是否合乎标准,是否存在错误等,这些都可以通过相应算法实现判断。通过主数据清洗,可以保证主数据的唯一性、精确性、完整性、一致性、有效性,为各个应用系统以及后续的分析决策提供高质量的数据保障。 三维天地作为业界领先的信息标准化管理解决方案供应商,致力于为客户提供全方位高质量的信息标准化管理服务。从客户的实际需求出发,以先进的技术和定制化的服务赢得客户的信任和支持。使信息标准化管理得到更全面的推广,让更多的企业体会信息标准化管理的魅力,共创信息化管理新时代。
- 易标准
- 供应链管理软件
- 质量基础设施服务平台
- 云端·实验室信息管理平台
供应链与云服务
Copyright © 2022 北京三维天地科技股份有限公司,All rights reserved. 京ICP备10208408号-2 京公网安备 11010602103901号