第四章-大数据预处理技术


第四章-数据清理

数据清理概述

无论数据清理是在加载到数据仓库之前,还是在从数据仓库抽取数据时,都不可能跳过数据清理这个过程

常用的数据清理步骤

kettle中几个常用数据清理步骤:

1
2
3
4
5
6
7
8
计算器;
字符串替换;
字符串操作;
字符串剪切:对字符串做剪切的功能;
拆分字段;
值映射;
字段选择:可以对字段进行选择、删除、重命名等操作;
去除重复记录和去除重复记录(哈希值)的两个步骤。

字符串清理

字段清理

1
2
3
4
拆分字段成多行(列拆分为多行):支持正则表达式;
拆分字段;
合并字段;
字段选择: “选择和修改”、“移除”和“元数据”三个分类

列拆分为多行

sBjjIA.png

拆分字段

sBvwLD.png

数据排重

如何识别重复数据

数据是否指的同一客观实体

重复数据分为两类:完全重复数据,不完全重复数据

完全重复数据:两个数据行的数据完全一致

不完全重复数据:客观上表示现实世界的同一实体,但由于表达方式不同或拼写错误等原因,导致数据存在多条重复

去除完全重复数据

去除重复记录

只能处理事先排好序的数据

去除重复记录(哈希值)

去除不完全重复数据

使用脚本组件进行数据清理

使用JavaScript代码组件清理数据

使用正则表达式组件清理数据

使用其它脚本组件清理数据


本文标题:第四章-大数据预处理技术

文章作者:TTYONG

发布时间:2021年01月16日 - 10:01

最后更新:2022年05月04日 - 18:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E9%A2%84%E5%A4%84%E7%90%86%E5%BA%94%E7%94%A8-%E7%AC%AC%E5%9B%9B%E7%AB%A0.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%