第五章-大数据预处理技术
      
      
      
        
        
          
          
Kettle作业设计作业的概念及组成一个作业包含一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。
组成:作业项、作业跳(跳)、注释
作业项与转换的步骤相比
1234有影子复制作业项之间传递一个结果对象可以并行执行后缀名:转换(ktr),作业(kjb)
跳三种判断方式:
12
两种状态:Enabled(可用)、Disabled(不可用)
作业的创建及常用作业项执行方式回溯多路径和回溯:作业运行的结果不是唯一的;并行执行
变量定义:任意长度的字符串值,有自己的作用范围;定义变量的两种方式:系统设置和用户自定义;系统设置:Java
          ...
          
          
          
        
      
    
    
    
    
	
	第四章-大数据预处理技术
      
      
      
        
        
          
          
第四章-数据清理数据清理概述无论数据清理是在加载到数据仓库之前,还是在从数据仓库抽取数据时,都不可能跳过数据清理这个过程
常用的数据清理步骤kettle中几个常用数据清理步骤:
12345678计算器;字符串替换;字符串操作;字符串剪切:对字符串做剪切的功能;拆分字段;值映射;字段选择:可以对字段进行选择、删除、重命名等操作;去除重复记录和去除重复记录(哈希值)的两个步骤。
字符串清理字段清理1234拆分字段成多行(列拆分为多行):支持正则表达式;拆分字段;合并字段;字段选择: “选择和修改”、“移除”和“元数据”三个分类
列拆分为多行
拆分字段
数据排重如何识别重复数
          ...
          
          
          
        
      
    
    
    
    
	
	第三章-大数据预处理技术
      
      
      
        
        
          
          
第三章-基于kettle的数据导入与导出基于文件的数据导入与导出文本文件的导入与导出文本文件分类:分隔符文件;固定宽度文件
文本文件的导入与导出案例Excel文件的导入与导出Excel文件:分为结构化的表格数据和非结构化的表格数据;对于非结构化表格数据,可能表里包含有多个字段值的列或者有重复的一组字段等
Excel文件的导入与导出案例XML文件的导入与导出XML文件的导入与导出案例JSON文件的导入与导出JSON文件的导入与导出案例基于数据库的数据导入与导出关系型数据库的数据导入与导出面对关系型数据库,Kettle可以利用“表输入”、“表输出”步骤完成导入和导出
MySQL数据库的数
          ...
          
          
          
        
      
    
    
    
    
	
	第二章-大数据预处理技术
      
      
      
        
        
          
          
第二章-kettle的初步使用kettle安装java安装kettle的下载安装与spoon的启动kettle的使用转换的基本概念转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作
组成:步骤、跳、注释
步骤步骤是转换中的基本组成部分,是一个图形化的组件
关键特性:(四点),最主要的一点是步骤的名字唯一
123456// 步骤的四个主要特性1.步骤的名字唯一2.每个步骤都会读,写数据行(生成步骤是例外,他只能写数据行)3.步骤之间通过跳进行数据行的单向传输4.大多数步骤都可以有多个输出跳5.在运行转换时,一个线程运行一个步骤,所
          ...
          
          
          
        
      
    
    
    
    
	
	第一章-大数据预处理技术
      
      
      
        
        
          
          
第一章-数据预处理概述数据与处理的背景与目的数据预处理背景:数据质量高质量数据:能满足应用要求
数据质量涉及的因素:准确性,完整性,一致性,时效性,相关性,可信性,可解释性.
数据库和数据仓库的角度当今世界大型数据库和数据仓库的共同缺点是存在不正确,不完整,不一致.
应用角度时效性,相关性
用户角度可信性,可解释性
数据预处理目的在数据挖掘之前,必须对收集的原始数据进行预处理,达到改善数据的质量,提高数据挖掘过程的准确率和效率的目的
数据预处理流程1初始数据采集=>数据清理=>数据集成=》数据转换=>数据规约
这里的流程
          ...
          
          
          
        
      
    
    
    
    
	
	第五章-MongoDB基础
      
      
      
        
        
          
          
第五章-MongoDB基础概述开源数据库,是目前NoSQL数据库中使用最广泛的数据库之一
是一个开源文档数据库,是用C++语言编写的非关系型数据库
基本概念文档数据模型传统的关系型数据库需要对表结构进行预先定义和严格的要求,而这样的严格要求,导致了处理数据的过程更加繁琐,甚至降低了执行效率。在数据量达到一定规模的情况下,传统关系型数据库反应迟钝。
文档存储支持对结构化数据的访问,与关系模型不同的是,文档存储没有强制的架构。文档存储以封包键值对的方式进行存储,文档存储模型支持嵌套结构
文档数据库无需事先定义数据存储结构、
文档存储结构文档存储结构可分为四个层次:键值对,文档,集合,
          ...
          
          
          
        
      
    
    
    
    
	
	第一章-NoSQL数据库原理与应用
      
      
      
        
        
          
          
第一章-NoSQL数据库原理与应用数据库系统由数据库,数据库管理系统,应用程序,用户组成
数据库系统的基本概念数据库DBS是长期存储在计算机内,有组织,统一管理的,可以表现为多种形式的,可共享的数据集合
数据库根据不同的逻辑模型可以分为三种:层次型,网状型,关系型
层次型:简单,冗余度过高
网状型:随着应用范围的扩展,数据库的结构变得越来越复杂
关系型:二维表格来表示实体集合以及数据间的联系的一种模型
数据库管理系统DBMS是一种操作和管理数据库的大型软件,用于建立,使用和维护数据库
数据定义DBMS提供数据定义语言DDL,供用户定义,创建和修改数据库的结构
数据操纵DBMS提供
          ...
          
          
          
        
      
    
    
    
    
	
	第八章-基于python的数据整理
      
      
      
        
        
          
          
第八章-基于python的数据整理合并多个数据集pandas提供以下几种方法合并多个数据集:
pandas.merge:基于一个键或多个键连接多个DataFrame的行
pandas.concat:按行或按列将不同的对象叠加到一起
combine_first:使用一个对象中的数据填充另一个对象中对应位置的缺失值
merge默认连接为类似sql的inner join操作
利用how参数,实现其它连接方式,left join, right join, outer join
不指明使用某一列作为连接键在这种情况下使用重叠列作为键进行连接
12345from pandas import Da
          ...
          
          
          
        
      
    
    
    
    
	
	第七章-基于python的数据导入与导出
      
      
      
        
        
          
          
第七章-基于python的数据导入与导出Pandaspandas是python的一个开源库,提供了高性能且易于使用的数据结构及数据分析工具
pandas中文文档
pandas官方文档
Series处理一维数据
12345678910from pandas import Seriesimport pandas as pds = Series([5,2,8,4])>>>s>>>0 51 22 83 4dtype: int64
index和values属性通过Series的index和values属性获取元素值和index值
1234s.index&g
          ...