TianYong's Blog

大数据开发工程师-第十一周 Spark性能优化的道与术-Spark Streaming-6

发表于 2023-04-23

字数统计: 5.6k | 阅读时长 ≈ 21

第十一周 Spark性能优化的道与术-Spark Streaming-6SparkStreaming wordcount程序开发scala12345大家好，下面我们来学习一下Spark中的Spark streaming。针对Spark Streaming，我们主要讲一些基本的用法，因为目前在实时计算领域，flink的应用场景会更多。Spark streaming啊，它是Spark Core API的一种扩展。它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。大家注意这个实时啊，属于近实时。最小可以支持秒级别的实时处理。那spark streaming的工作原理呢？是这样的。它呢 ...

阅读全文 »

大数据开发工程师-第十七周 Flink新版本1.12以上-2

发表于 2023-04-20 | 分类于大数据开发工程师，大数据

字数统计: 17.5k | 阅读时长 ≈ 70

Flink新版本1.12以上-2State(状态)的容错与一致性123456789101112131415前面我们学习了State的原理和在代码中的使用。下面我们来深入分析一下State的容错和一致性。4.1 State的容错与一致性针对一个Flink流式任务，如何保证这个任务故障后恢复到之前的运行状态？注意：这里所说的恢复到之前的运行状态是表示将算子中计算的中间结果恢复到任务停止之前的样子。其实咱们前面也提到过，想要实现状态的这种容错效果，需要借助于checkpoint机制。因为checkpoint可以将状态数据持久化保存到外部存储系统中，这样任务恢复时，可以基于之前存储到外部的状 ...

阅读全文 »

大数据开发工程师-Flink新版本1.12以上-1

发表于 2023-04-20 | 分类于大数据开发工程师，大数据

字数统计: 22k | 阅读时长 ≈ 91

Flink新版本1.12以上-1Flink新版本新特性介绍1234567891011121314151617181920212223242526272829303132333435下面针对Flink最近几个版本的更新的重要新特性进行汇总，帮助大家快速了解一下每个版本的差异。1：Flink 1.12版本重要新特性在DataStreamAPI 中支持批处理(批流一体化)。DataSetAPI被标记为过时。针对离线计算需求，建议使用Table API和SQL，或者使用DataStreamAPI 中的批处理模式。增加新的DataSinkAPI。扩展了KafkaSQL Connector，可以支持 ...

阅读全文 »

大数据开发工程师-第十七周 Flink极速上手篇-Flink高级进阶之路-2

发表于 2023-04-20 | 分类于大数据开发工程师，大数据

字数统计: 7.1k | 阅读时长 ≈ 28

第十七周 Flink极速上手篇-Flink高级进阶之路-2Kafka-Connector1大家好，下面呢，我们来看一下flink中针对kafka connect的专题，提供了很多的connect组件，其中应用比较广泛的就是kafka这个connect。我们就针对kafka在flink的应用做详细的分析。针对flink流处里啊，最常用的组件就是kafka。原始日志数据产生后，会被日志采集工具采集到kafka中，让flink去处理。处理之后的数据可能也会继续写入到kafka中。kafka可以作为flink的datasource和datasink来使用。并且kafka中的partition ...

阅读全文 »

大数据开发工程师-第十七周 Flink极速上手篇-Flink高级进阶之路-1

发表于 2023-04-20 | 分类于大数据开发工程师，大数据

字数统计: 14.9k | 阅读时长 ≈ 58

第十七周 Flink极速上手篇-Flink高级进阶之路-1Window的概念和类型123456789大家好，前面我们学习了flink中的基本概念，集群部署以及核心API的使用，下面我们来学习一下flink中的高级特性的使用。首先，我们需要掌握中的window、time以及whatermark使用。然后我们需要掌握kafka-connector使用，这个是针对kafka一个专题。最后我们会学习一下Spark中的流式计算sparkStreaming，之前在学习spark的时候我们没有涉及这块，在这儿我们和flink一块来学习，可以加深理解，因为它们都是流式计算引擎。下面呢，我们首先进入第 ...

阅读全文 »