第一章-数据预处理概述
数据与处理的背景与目的
数据预处理背景:数据质量
高质量数据:能满足应用要求
数据质量涉及的因素:准确性,完整性,一致性,时效性,相关性,可信性,可解释性.
数据库和数据仓库的角度
当今世界大型数据库和数据仓库的共同缺点是存在不正确,不完整,不一致.
应用角度
时效性,相关性
用户角度
可信性,可解释性
数据预处理目的
在数据挖掘之前,必须对收集的原始数据进行预处理,达到改善数据的质量,提高数据挖掘过程的准确率和效率的目的
数据预处理流程
1 | 初始数据采集=>数据清理=>数据集成=》数据转换=>数据规约 |
这里的流程顺序不用必须严格按照1/2/3/4顺序进行
数据清理
脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据。
脏数据划分为缺省值和噪声(噪声是被测量变量的随机误差或方差)
数据清理:填充缺失值、光滑噪声和识别离群点
缺失值
噪声数据
不一致数据
数据集成
合并来自多个数据源的数据
实体识别问题
冗余和相关分析
元组重复
数据值冲突的检测与处理
数据变换
在数据预处理阶段,数据被变换或统一,使挖掘过程可能更有效,挖掘的模式可能更容易理解
数据变换策略
通过规范化变换数据
通过分箱离散化
通过直方图分析离散化
通过聚类,决策树和相关分析离散化
标称数据的概念分层产生
数据规约
尽可能保持数据原貌的前提下,最大限度地精简数据量
数据规约的策略:维规约、数量规约、数据压缩
数据预处理的工具
工具类手段:Kettle
编程类手段:Python语言
死并非生的对立面,是生的一部分永存。