第一章-大数据预处理技术


第一章-数据预处理概述

数据与处理的背景与目的

数据预处理背景:数据质量

高质量数据:能满足应用要求

数据质量涉及的因素:准确性,完整性,一致性,时效性,相关性,可信性,可解释性.

数据库和数据仓库的角度

当今世界大型数据库和数据仓库的共同缺点是存在不正确不完整不一致.

应用角度

时效性,相关性

用户角度

可信性,可解释性

数据预处理目的

在数据挖掘之前,必须对收集的原始数据进行预处理,达到改善数据的质量,提高数据挖掘过程的准确率和效率的目的

数据预处理流程

1
初始数据采集=>数据清理=>数据集成=》数据转换=>数据规约

这里的流程顺序不用必须严格按照1/2/3/4顺序进行

数据清理

脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。
脏数据划分为缺省值噪声(噪声是被测量变量的随机误差或方差)

数据清理:填充缺失值、光滑噪声和识别离群点

缺失值

噪声数据

不一致数据

数据集成

合并来自多个数据源的数据

实体识别问题

冗余和相关分析

元组重复

数据值冲突的检测与处理

数据变换

在数据预处理阶段,数据被变换或统一,使挖掘过程可能更有效,挖掘的模式可能更容易理解

数据变换策略

通过规范化变换数据

通过分箱离散化

通过直方图分析离散化

通过聚类,决策树和相关分析离散化

标称数据的概念分层产生

数据规约

尽可能保持数据原貌的前提下,最大限度地精简数据量

数据规约的策略:维规约、数量规约、数据压缩

数据预处理的工具

工具类手段:Kettle
编程类手段:Python语言


死并非生的对立面,是生的一部分永存。

本文标题:第一章-大数据预处理技术

文章作者:TTYONG

发布时间:2021年01月13日 - 10:01

最后更新:2022年05月04日 - 18:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E9%A2%84%E5%A4%84%E7%90%86%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%B8%80%E7%AB%A0.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%