TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

大数据开发工程师-第十一周 Spark性能优化的道与术-Spark Streaming-6

发表于 2023-04-23
字数统计: 5.6k | 阅读时长 ≈ 21
第十一周 Spark性能优化的道与术-Spark Streaming-6SparkStreaming wordcount程序开发scala12345大家好,下面我们来学习一下Spark中的Spark streaming。针对Spark Streaming,我们主要讲一些基本的用法,因为目前在实时计算领域,flink的应用场景会更多。Spark streaming啊,它是Spark Core API的一种扩展。它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。大家注意这个实时啊,属于近实时。最小可以支持秒级别的实时处理。那spark streaming的工作原理呢?是这样的。它呢 ...
阅读全文 »

大数据开发工程师-第十七周 Flink新版本1.12以上-2

发表于 2023-04-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 17.5k | 阅读时长 ≈ 70
Flink新版本1.12以上-2State(状态)的容错与一致性123456789101112131415前面我们学习了State的原理和在代码中的使用。下面我们来深入分析一下State的容错和一致性。4.1 State的容错与一致性针对一个Flink流式任务,如何保证这个任务故障后恢复到之前的运行状态?注意:这里所说的恢复到之前的运行状态是表示将算子中计算的中间结果恢复到任务停止之前的样子。其实咱们前面也提到过,想要实现状态的这种容错效果,需要借助于checkpoint机制。因为checkpoint可以将状态数据持久化保存到外部存储系统中,这样任务恢复时,可以基于之前存储到外部的状 ...
阅读全文 »

大数据开发工程师-Flink新版本1.12以上-1

发表于 2023-04-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 22k | 阅读时长 ≈ 91
Flink新版本1.12以上-1Flink新版本新特性介绍1234567891011121314151617181920212223242526272829303132333435下面针对Flink最近几个版本的更新的重要新特性进行汇总,帮助大家快速了解一下每个版本的差异。1:Flink 1.12版本重要新特性在DataStreamAPI 中支持批处理(批流一体化)。DataSetAPI被标记为过时。针对离线计算需求,建议使用Table API和SQL,或者使用DataStreamAPI 中的批处理模式。增加新的DataSinkAPI。扩展了KafkaSQL Connector,可以支持 ...
阅读全文 »

大数据开发工程师-第十七周 Flink极速上手篇-Flink高级进阶之路-2

发表于 2023-04-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 7.1k | 阅读时长 ≈ 28
第十七周 Flink极速上手篇-Flink高级进阶之路-2Kafka-Connector1大家好,下面呢,我们来看一下flink中针对kafka connect的专题,提供了很多的connect组件,其中应用比较广泛的就是kafka这个connect。我们就针对kafka在flink的应用做详细的分析。针对flink流处里啊,最常用的组件就是kafka。原始日志数据产生后,会被日志采集工具采集到kafka中,让flink去处理。处理之后的数据可能也会继续写入到kafka中。kafka可以作为flink的datasource和datasink来使用。并且kafka中的partition ...
阅读全文 »

大数据开发工程师-第十七周 Flink极速上手篇-Flink高级进阶之路-1

发表于 2023-04-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 14.9k | 阅读时长 ≈ 58
第十七周 Flink极速上手篇-Flink高级进阶之路-1Window的概念和类型123456789大家好,前面我们学习了flink中的基本概念,集群部署以及核心API的使用,下面我们来学习一下flink中的高级特性的使用。首先,我们需要掌握中的window、time以及whatermark使用。然后我们需要掌握kafka-connector使用,这个是针对kafka一个专题。最后我们会学习一下Spark中的流式计算sparkStreaming,之前在学习spark的时候我们没有涉及这块,在这儿我们和flink一块来学习,可以加深理解,因为它们都是流式计算引擎。下面呢,我们首先进入第 ...
阅读全文 »

分布式数据库原理与应用-5 HBase

发表于 2023-04-17 | 分类于 分布式数据库原理与应用
字数统计: 4.4k | 阅读时长 ≈ 15
第四章 Hbase01 Hbase基本原理Region定位–region 123456在HBase中,表的所有行都是按照RowKey的字典序排列的,表在行的方向上分割为多个分区(Region)。如图1所示。每张表一开始只有一个Region,但是随着数据的插入,HBase会根据一定的规则将表进行水平拆分,形成两个Region,当表中的行越来越多时,就会产生越来越多的Region,而这些Region无法存储到一台机器上时,需要分布存储到多台机器上。每个Region服务器负责管理一个Region,通常在每个Region服务器上会放置10~1000个Region,HBase中Region的物 ...
阅读全文 »

分布式数据库原理与应用-4 HBase

发表于 2023-04-17 | 分类于 分布式数据库原理与应用
字数统计: 4.2k | 阅读时长 ≈ 19
第三章 Hbase05 Hbase过滤器12可以根据主键、列簇、列、版本等更多的条件来对数据进行过滤。类似SQL中的WHERE 12hbase(main):011:0> show_filtersDependentColumnFilter KeyOnlyFilter ColumnCountGetFilter SingleColumnVal ...
阅读全文 »

分布式数据库原理与应用-3 HBase

发表于 2023-04-17 | 分类于 分布式数据库原理与应用
字数统计: 2.2k | 阅读时长 ≈ 7
第三章 Hbase01 Hbase数据模型逻辑模型 HBase相关概念123456(1)表(table):HBase采用表来组织数据;(2)行(row):每个表都由行组成,每个行由行键(row key)来标识,行键可以是任意字符串;(3)列族(column family):一个table有许多个列族,列族是列的集合,属于表结构,也是表的基本访问控制单元;(4)列标识(column qualifier):属于某一个Column Family:Column Qualifier形式标识,每条记录可动态添加(5)时间戳(timestamp):时间戳用来区分数据的不同版本;(6)单元格(cel ...
阅读全文 »

分布式数据库原理与应用-2 HBase

发表于 2023-04-17 | 分类于 分布式数据库原理与应用
字数统计: 1.2k | 阅读时长 ≈ 4
第二章 Hbase01 Hbase简介什么是HBase123456HBase是一个开源的NoSQL数据库,参考google的BigTable建模,使用Java语言实现,运行于HDFS文件系统上,为Hadoop提供类似BigTable的服务,可以存储海量稀疏的数据,并具备一定的容错性、高可靠性及伸缩性。具备NoSQL数据库的特点:不支持SQL的跨行事务不满足完整性约束条件灵活的数据模型 HBase的发展历程1Apache HBase最初是Powerset公司为了处理自然语言搜索产生的海量数据而开展的项目 HBase特性12345容量巨大列存储稀疏性扩展性高可靠性 容量巨大 列存 ...
阅读全文 »

分布式数据库原理与应用-1

发表于 2023-04-17 | 分类于 分布式数据库原理与应用
字数统计: 1.8k | 阅读时长 ≈ 6
第一章 绪论数据库基本知识什么是数据库?什么是数据模型?有哪些数据模型?1数据库技术发展至今,传统数据库根据不同的数据模型,主要有以下几种:层次型、网状型和关系型。 12345678910关系模型要点回顾 1. 数据结构:现实世界的实体以及实体之间的各种联系均用关系来表示数据逻辑结构:二维表 2. 完整性约束条件域完整性,实体完整性,参照完整性 3. 关系操作选择,投影,连接 等等关系运算;操作对象和结果都是集合 关系型数据库的优点1234关系型数据库的特点(1)容易理解:用二维表表示(2)使用方便:通用的SQL语言。(3)易于维护:丰富的完整性约束大大减低 ...
阅读全文 »
上一页1…345…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%