第五章-大数据预处理技术


Kettle作业设计

作业的概念及组成

一个作业包含一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。

组成:作业项、作业跳(跳)、注释

作业项

与转换的步骤相比

1
2
3
4
有影子复制
作业项之间传递一个结果对象
可以并行执行
后缀名:转换(ktr),作业(kjb)

三种判断方式:

1
2


两种状态:Enabled(可用)、Disabled(不可用)

作业的创建及常用作业项

执行方式

回溯
多路径和回溯:作业运行的结果不是唯一的;
并行执行

变量

定义:任意长度的字符串值,有自己的作用范围;
定义变量的两种方式:系统设置和用户自定义;
系统设置:Java虚拟机、Kettle的内部变量;
用户自定义:使用kettle.properties文件。在“设置变量”中设置作业项的属性、获取属性文件中的变量

监控

监控包括日志和邮件两种方式
日志包含的级别及其对应内容:

1
2
3
4
5
6
7
Nothing:
Error:
Basic:
Detailed:
Debug:
Rowlevel:
Minimal:

本文标题:第五章-大数据预处理技术

文章作者:TTYONG

发布时间:2021年01月16日 - 10:01

最后更新:2022年05月04日 - 18:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E9%A2%84%E5%A4%84%E7%90%86%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%BA%94%E7%AB%A0.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%