第二章-大数据预处理技术


第二章-kettle的初步使用

kettle安装

java安装

kettle的下载安装与spoon的启动

kettle的使用

转换的基本概念

转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作

组成:步骤、跳、注释

步骤

步骤是转换中的基本组成部分,是一个图形化的组件

关键特性:(四点),最主要的一点是步骤的名字唯一

1
2
3
4
5
6
// 步骤的四个主要特性
1.步骤的名字唯一
2.每个步骤都会读,写数据行(生成步骤是例外,他只能写数据行)
3.步骤之间通过跳进行数据行的单向传输
4.大多数步骤都可以有多个输出跳
5.在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎同时进行

转换的跳

跳定义了步骤之间进行数据传输的单向通道

从执行角度看:不可能定义执行的顺序和起点步骤、终点步骤;
从功能角度看:有明确的起点步骤和终点步骤

数据行

在kettle里数据的单位是.

一个数据行是多个字段的结合,是kettle的数据单位,简称行。

字段包括的数据类型7大类(String、Number、Integer、Date、Boolean、Binary)

第一个转换案例

创建转换

核心对象

可视化编程

执行结果

状态栏

主对象树

参数配置

环境变量配置

环境变量:全局的,对所有转换和作业有效

命名参数配置

命名参数:局部的,仅对当前转换和作业有效

定时启动转换

在windows下,可以使用控制面板中的计划任务执行批处理

实例
1
2
cd /d d:\data-integration
pan /file=xxxxx.ktr /level=Dtailed /logfile=xxx.log0
1
2
3
4
5
6
//参数描述表
参数名 参数值 作用
file 文件名 指定转换或作业的文件名
level Error, Nothing, 指定日志级别
Detail,Debug,Rowlevel
logfile 日志文件名 指定转换或作业的日志文件名

本文标题:第二章-大数据预处理技术

文章作者:TTYONG

发布时间:2021年01月13日 - 11:01

最后更新:2022年05月04日 - 18:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E9%A2%84%E5%A4%84%E7%90%86%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%BA%8C%E7%AB%A0.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%