TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

大数据开发工程师-第十四周 消息队列之Kafka从入门到小牛-5

发表于 2023-04-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.6k | 阅读时长 ≈ 11
第十四周 消息队列之Kafka从入门到小牛-5实战:Flume集成Kafka12345678在实际工作中flume和kafka会深度结合使用1:flume采集数据,将数据实时写入kafka2:flume从kafka中消费数据,保存到hdfs,做数据备份下面我们就来看一个综合案例使用flume采集日志文件中产生的实时数据,写入到kafka中,然后再使用flume从kafka中将数据消费出来,保存到hdfs上面那为什么不直接使用flume将采集到的日志数据保存到hdfs上面呢?因为中间使用kafka进行缓冲之后,后面既可以实现实时计算,又可以实现离线数据备份,最终实现离线计算,所以这一份数据 ...
阅读全文 »

大数据开发工程师-第十四周 消息队列之Kafka从入门到小牛-4

发表于 2023-04-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.3k | 阅读时长 ≈ 9
Kafka技巧篇Kafka集群参数调忧JVM参数调忧1234默认启动的Broker进程只会使用1G内存,在实际使用中会导致进程频繁GC,影响Kafka集群的性能和稳定性通过 jstat -gcutil <pid> 1000 查看到kafka进程GC情况主要看 YGC,YGCT,FGC,FGCT 这几个参数,如果这几个值不是很大,就没什么问题 1234YGC:young gc发生的次数YGCT:young gc消耗的时间FGC:full gc发生的次数FGCT:full gc消耗的时间 12345[root@bigdata01 kafka_2.12-2.4.1]# jps1 ...
阅读全文 »

大数据开发工程师-第十四周 消息队列之Kafka从入门到小牛-3

发表于 2023-04-15 | 分类于 大数据开发工程师 , 大数据
字数统计: 4.2k | 阅读时长 ≈ 17
第十四周 消息队列之Kafka从入门到小牛-3Kafka核心之存储和容错机制存储策略123456789101112在kafka中每个topic包含1到多个partition,每个partition存储一部分Message。每条Message包含三个属性,其中有一个是offset。问题来了:offset相当于partition中这个message的唯一id,那么如何通过id高效的找到message?两大法宝:分段+索引(分段表示一个partition会存储多个文件)kafak中数据的存储方式是这样的:1、每个partition由多个segment【片段】组成,每个segment文件中存 ...
阅读全文 »

大数据开发工程师-第十四周 消息队列之Kafka从入门到小牛-2

发表于 2023-04-15 | 分类于 大数据开发工程师 , 大数据
字数统计: 4.4k | 阅读时长 ≈ 17
大数据开发工程师-第十四周 消息队列之Kafka从入门到小牛-2Kafka使用初体验Kafka中Topic的操作123kafka集群安装好了以后我们就想向kafka中添加一些数据想要添加数据首先需要创建topic那接下来看一下针对topic的一些操作 新增Topic1234567指定2个分区,2个副本,注意:副本数不能大于集群中Broker的数量因为每个partition的副本必须保存在不同的broker,否则没有意义,如果partition的副本都保存在同一个broker,那么这个broker挂了,则partition数据依然会丢失在这里我使用的是3个节点的kafka集群,所以副 ...
阅读全文 »

大数据开发工程师-第十六周 Flink极速上手篇-Flink核心API之TableAPI和SQL-5

发表于 2023-04-08 | 分类于 大数据开发工程师 , 大数据
字数统计: 4.1k | 阅读时长 ≈ 20
第十六周 Flink极速上手篇-Flink核心API之TableAPI和SQL-5Table API & SQL1注意:Table API和SQL现在还处于活跃开发阶段,还没有完全实现Flink中所有的特性。不是所有的[Table API,SQL]和[流,批]的组合都是支持的。 123Table API和SQL的由来:Flink针对标准的流处理和批处理提供了两种关系型API,Table API和SQL。Table API允许用户以一种很直观的方式进行select、filter和join操作。Flink SQL基于Apache Calcite实现标准SQL。针对批处理和流处理可以 ...
阅读全文 »

大数据开发工程师-第十六周 Flink极速上手篇-Flink核心API之DataSetAPI-4

发表于 2023-04-08 | 分类于 大数据开发工程师 , 大数据
字数统计: 3.2k | 阅读时长 ≈ 15
第十六周 Flink极速上手篇-Flink核心API之DataSetAPI-4DataSet API123456DataSet API主要可以分为3块来分析:DataSource、Transformation、Sink。DataSource是程序的数据源输入。Transformation是具体的操作,它对一个或多个输入数据源进行计算处理,例如map、flatMap、filter等操作。DataSink是程序的输出,它可以把Transformation处理之后的数据输出到指定的存储介质中。 DataSet API之DataSource1234567针对DataSet批处理而言,其实最 ...
阅读全文 »

大数据开发工程师-第十六周 Flink极速上手篇-Flink核心API之DataStreamAPI-3

发表于 2023-04-08 | 分类于 大数据开发工程师 , 大数据
字数统计: 7.6k | 阅读时长 ≈ 35
第十六周 Flink极速上手篇-Flink核心API之DataStreamAPI-3Flink核心API 1Flink中提供了4种不同层次的API,每种API在简洁和易表达之间有自己的权衡,适用于不同的场景。目前上面3个会用得比较多。 12345678910低级API(Stateful Stream Processing):提供了对时间和状态的细粒度控制,简洁性和易用性较差,主要应用在一些复杂事件处理逻辑上。核心API(DataStream/DataSet API):主要提供了针对流数据和批数据的处理,是对低级API进行了一些封装,提供了filter、sum、max、min等 ...
阅读全文 »

大数据开发工程师-第十六周 Flink极速上手篇-实战:流处理和批处理程序开发-2

发表于 2023-04-08 | 分类于 大数据开发工程师 , 大数据
字数统计: 5k | 阅读时长 ≈ 23
第十六周 Flink极速上手篇-实战:流处理和批处理程序开发-2Flink快速上手使用123创建maven项目,因为要使用scala编写代码,在src里main里除了java目录,还要创建scala目录,再创建包setting里的module里的scala sdk要导入 1接下来在pom.xml 中引入flink相关依赖,前面两个是针对java代码的,后面两个是针对scala代码的,最后一个依赖是这对flink1.11这个版本需要添加的 1234567891011121314151617181920212223242526272829<dependency> ...
阅读全文 »

大数据开发工程师-第十六周 Flink极速上手篇-初识Flink

发表于 2023-04-08 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.6k | 阅读时长 ≈ 5
第十六周 Flink极速上手篇-初识Flink初识Flink什么是Flink1234567Apache Flink 是一个开源的分布式,高性能,高可用,准确的流处理框架。分布式:表示flink程序可以运行在很多台机器上,高性能:表示Flink处理性能比较高高可用:表示flink支持程序的自动重启机制。准确的:表示flink可以保证处理数据的准确性。Flink支持流处理和批处理,虽然我们刚才说了flink是一个流处理框架,但是它也支持批处理。其实对于flink而言,它是一个流处理框架,批处理只是流处理的一个极限特例而已。 123左边是数据源,从这里面可以看出来,这些数据是实时产生的 ...
阅读全文 »

大数据开发工程师-第十四周 消息队列之Kafka从入门到小牛-1

发表于 2023-04-08 | 分类于 大数据开发工程师 , 大数据
字数统计: 4.3k | 阅读时长 ≈ 17
第十四周 消息队列之Kafka从入门到小牛-1初识Kafka什么是消息队列1234567在学习Kafka之前我们先来看一下什么是消息队列消息队列(Message Queue):可以简称为MQ例如:Java中的Queue队列,也可以认为是一个消息队列消息队列:顾名思义,消息+队列,其实就是保存消息的队列,属于消息传输过程中的容器。消息队列主要提供生产、消费接口供外部调用,做数据的存储和读取 消息队列分类123456789101112131415消息队列大致可以分为两种:点对点(P2P)、发布订阅(Pub/Sub)共同点:针对数据的处理流程是一样的消息生产者生产消息发送到qu ...
阅读全文 »
上一页1…456…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%