第十六周 Flink极速上手篇-Flink核心API之DataSetAPI-4
DataSet API
1 | DataSet API主要可以分为3块来分析:DataSource、Transformation、Sink。 |
DataSet API之DataSource
1 | 针对DataSet批处理而言,其实最多的就是读取HDFS中的文件数据,所以在这里我们主要介绍两个DataSource组件。 |
DataSet API之Transformation
1 | 算子 解释 |
1 | 这里面的算子我们都是比较熟悉的,在前面DatatreamAPI中都用过,用法都是一样的,所以在这就不再演示了 |
mapPartition
scala
1 | package com.imooc.scala.batch.transformation |
java
1 | package com.imooc.java.batch.transformation; |
1 | 下面还有一些transformation算子 |
join
scala
1 | package com.imooc.scala.batch.transformation |

java
1 | package com.imooc.java.batch.transformation; |
1 | outerJoin:外连接 |
outerJoin
scala
1 | package com.imooc.scala.batch.transformation |



java
1 | package com.imooc.java.batch.transformation; |
cross
1 | cross:获取两个数据集的笛卡尔积 |
scala
1 | package com.imooc.scala.batch.transformation |

java
1 | package com.imooc.java.batch.transformation; |
1 | union:返回两个数据集的总和,数据类型需要一致 |
first-n
scala
1 | package com.imooc.scala.batch.transformation |
java
1 | package com.imooc.java.batch.transformation; |
DataSet API之DataSink
1 | Flink针对DataSet提供了一些已经实现好的数据目的地 |