TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

廖雪峰Java教程笔记-泛型

发表于 2023-03-29 | 分类于 廖雪峰java笔记
字数统计: 4.1k | 阅读时长 ≈ 19
泛型什么是泛型123456789ArrayList是一种可变长数组,其内部使用的是Object类型public class ArrayList { private Object[] array; private int size; public void add(Object e) {...} public void remove(int index) {...} public Object get(int index) {...}} 123如果用上述ArrayList存储 ...
阅读全文 »

大数据开发工程师-第十一周 SparkSql-5

发表于 2023-03-28
字数统计: 6.4k | 阅读时长 ≈ 30
第十一周 SparkSql-极速上手SparkSql-51之前已学完,spark core,离线数据计算 Spark SQL12345678910Spark SQL和我们之前讲Hive的时候说的hive on spark是不一样的。hive on spark是表示把底层的mapreduce引擎替换为spark引擎。而Spark SQL是Spark自己实现的一套SQL处理引擎。Spark SQL是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。DataFrame=RDD+Schema 。它其实和关系型数据库中的表非常类 ...
阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-4

发表于 2023-03-28 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.1k | 阅读时长 ≈ 9
第十一周 Spark性能优化的道与术-算子优化-4map vs mapPartitions12345678map操作:对RDD 中的每个元素进行操作,一次处理一条数据mapPartitions操作(transformation操作):对RDD中每个partition进行操作,一次处理一个分区的数据所以:map操作:执行1次map算子只处理1个元素,如果partition中元素较多,假设当前已经处理了1000个元素,在内存不足的情况下,Spark可以通过GC等方法回收内存(比如将已处理掉的1000个元素从内存中回收)。因此,map操作通常不会导致OOM异常;mapPartitions操 ...
阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-3

发表于 2023-03-27 | 分类于 大数据开发工程师 , 大数据
字数统计: 8.1k | 阅读时长 ≈ 31
第十一周 Spark性能优化的道与术-企业级最佳实践-3性能优化分析123一个计算任务的执行主要依赖于CPU、内存、带宽Spark是一个基于内存的计算引擎,所以对它来说,影响最大的可能就是内存,一般我们的任务遇到了性能瓶颈大概率都是内存的问题,当然了CPU和带宽也可能会影响程序的性能,这个情况也不是没有的,只是比较少。Spark性能优化,其实主要就是在于对内存的使用进行调优。通常情况下,如果你的Spark程序计算的数据量比较小,并且你的内存足够使用,那么只要网络不至于卡死,一般是不会有大的性能问题的。但是Spark程序的性能问题往往出现在针对大数据量进行计算(比如上亿条数的数据,或者 ...
阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-2

发表于 2023-03-27 | 分类于 大数据开发工程师 , 大数据
字数统计: 6.2k | 阅读时长 ≈ 27
第十一周 Spark性能优化的道与术-2checkpoint概述1234checkpoint,是Spark提供的一个比较高级的功能。有时候,我们的Spark任务,比较复杂,从初始化RDD开始,到最后整个任务完成,有比较多的步骤,比如超过10个transformation算子。而且,整个任务运行的时间也特别长,比如通常要运行1~2个小时。在这种情况下,就比较适合使用checkpoint功能了。因为对于特别复杂的Spark任务,有很高的风险会出现某个要反复使用的RDD因为节点的故障导致丢失,虽然之前持久化过,但是还是导致数据丢失了。那么也就是说,出现失败的时候,没有容错机制,所以当后面的 ...
阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-1

发表于 2023-03-27 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.7k | 阅读时长 ≈ 9
第十一周 Spark性能优化的道与术-1宽依赖和窄依赖123456先看一下什么是窄依赖:窄依赖(Narrow Dependency):指父RDD的每个分区只被子RDD的一个分区所使用,例如map、filter等这些算子一个RDD,对它的父RDD只有简单的一对一的关系,也就是说,RDD的每个partition仅仅依赖于父RDD中的一个partition,父RDD和子RDD的partition之间的对应关系,是一对一的。宽依赖(Shuffle Dependency):父RDD的每个分区都可能被子RDD的多个分区使用,例如groupByKey、reduceByKey,sortBykey等算 ...
阅读全文 »

IDEA使用经验积累

发表于 2023-03-24
字数统计: 96 | 阅读时长 ≈ 1
IDEA使用经验积累运行程序报错内存不够12run->edit configuration->vm option-Xms1024m -Xmx1024m Maven创建项目编辑spark程序时123456本地运行<!--<scope>provided</scope>-->这个表示使用相关spark依赖在spark集群运行时要把注释去掉,表示不使用相关spark依赖 快捷键1ctrl+alt+v:快速创建返回类型
阅读全文 »

林子雨 大数据技术原理与应用-第16章 spark

发表于 2023-02-28 | 分类于 大数据技术原理与应用
字数统计: 0 | 阅读时长 ≈ 1
阅读全文 »

林子雨 大数据技术原理与应用-第15章 hadoop架构再探讨

发表于 2023-02-28 | 分类于 大数据技术原理与应用
字数统计: 0 | 阅读时长 ≈ 1
阅读全文 »

林子雨 大数据技术原理与应用-第14章 基于hadoop的数据仓库Hive

发表于 2023-02-28 | 分类于 大数据技术原理与应用
字数统计: 0 | 阅读时长 ≈ 1
阅读全文 »
上一页1…678…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%