第四章-数据清理
数据清理概述
无论数据清理是在加载到数据仓库之前,还是在从数据仓库抽取数据时,都不可能跳过数据清理这个过程
常用的数据清理步骤
kettle中几个常用数据清理步骤:
1 | 计算器; |
字符串清理
字段清理
1 | 拆分字段成多行(列拆分为多行):支持正则表达式; |
列拆分为多行
拆分字段
数据排重
如何识别重复数据
数据是否指的同一客观实体
重复数据分为两类:完全重复数据,不完全重复数据
完全重复数据:两个数据行的数据完全一致
不完全重复数据:客观上表示现实世界的同一实体,但由于表达方式不同或拼写错误等原因,导致数据存在多条重复
去除完全重复数据
去除重复记录
只能处理事先排好序的数据
