第三章-大数据预处理技术


第三章-基于kettle的数据导入与导出

基于文件的数据导入与导出

文本文件的导入与导出

文本文件分类:分隔符文件;固定宽度文件

文本文件的导入与导出案例

Excel文件的导入与导出

Excel文件:分为结构化的表格数据非结构化的表格数据;对于非结构化表格数据,可能表里包含有多个字段值的列或者有重复的一组字段等

Excel文件的导入与导出案例

XML文件的导入与导出

XML文件的导入与导出案例

JSON文件的导入与导出

JSON文件的导入与导出案例

基于数据库的数据导入与导出

关系型数据库的数据导入与导出

面对关系型数据库,Kettle可以利用“表输入”、“表输出”步骤完成导入和导出

MySQL数据库的数据导入与导出

“一般”选项卡常用的连接参数含义(主机名、数据库名称、端口号、用户名和密码)

基于CDC变更数据的导入与导出

识别出变化的数据并只导入这部分数据被称为变化捕获数据(CDC)

基于源数据的CDC

基于源数据的CDC:最常见的两个属性(时间戳、自增序列)

1
2
3
4
5
// 缺点
1.只有源数据中包含了插入时间和更新时间两个属性列,才能区分插入时间和更新时间
2.不能捕获物理删除,只能捕获逻辑删除
3.如果同一个时间周期内,数据被更新多次,那么只能同步最后一次更新操作,中间的更新操作都无法导入
4.时间戳和基于序列的CDC操作不适合用于实时场景下数据导入,一般用于批量操作

基于源数据的CDC案例

基于自增序列的源数据CDC案例

基于触发器的CDC

基于触发器的CDC的案例

基于快照的CDC

基于快照的CDC案例

基于日志的CDC

基于日志的CDC案例


本文标题:第三章-大数据预处理技术

文章作者:TTYONG

发布时间:2021年01月15日 - 11:01

最后更新:2022年05月04日 - 18:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E9%A2%84%E5%A4%84%E7%90%86%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%B8%89%E7%AB%A0.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%