TianYong's Blog

廖雪峰Java教程笔记-泛型

发表于 2023-03-29 | 分类于廖雪峰java笔记

字数统计: 4.1k | 阅读时长 ≈ 19

泛型什么是泛型123456789ArrayList是一种可变长数组，其内部使用的是Object类型public class ArrayList { private Object[] array; private int size; public void add(Object e) {...} public void remove(int index) {...} public Object get(int index) {...}} 123如果用上述ArrayList存储 ...

阅读全文 »

大数据开发工程师-第十一周 SparkSql-5

发表于 2023-03-28

字数统计: 6.4k | 阅读时长 ≈ 30

第十一周 SparkSql-极速上手SparkSql-51之前已学完，spark core，离线数据计算 Spark SQL12345678910Spark SQL和我们之前讲Hive的时候说的hive on spark是不一样的。hive on spark是表示把底层的mapreduce引擎替换为spark引擎。而Spark SQL是Spark自己实现的一套SQL处理引擎。Spark SQL是Spark中的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象，就是DataFrame。DataFrame=RDD+Schema 。它其实和关系型数据库中的表非常类 ...

阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-4

发表于 2023-03-28 | 分类于大数据开发工程师，大数据

字数统计: 2.1k | 阅读时长 ≈ 9

第十一周 Spark性能优化的道与术-算子优化-4map vs mapPartitions12345678map操作：对RDD 中的每个元素进行操作，一次处理一条数据mapPartitions操作(transformation操作)：对RDD中每个partition进行操作，一次处理一个分区的数据所以：map操作：执行1次map算子只处理1个元素，如果partition中元素较多，假设当前已经处理了1000个元素，在内存不足的情况下，Spark可以通过GC等方法回收内存（比如将已处理掉的1000个元素从内存中回收）。因此，map操作通常不会导致OOM异常；mapPartitions操 ...

阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-3

发表于 2023-03-27 | 分类于大数据开发工程师，大数据

字数统计: 8.1k | 阅读时长 ≈ 31

第十一周 Spark性能优化的道与术-企业级最佳实践-3性能优化分析123一个计算任务的执行主要依赖于CPU、内存、带宽Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。Spark性能优化，其实主要就是在于对内存的使用进行调优。通常情况下，如果你的Spark程序计算的数据量比较小，并且你的内存足够使用，那么只要网络不至于卡死，一般是不会有大的性能问题的。但是Spark程序的性能问题往往出现在针对大数据量进行计算（比如上亿条数的数据，或者 ...

阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-2

发表于 2023-03-27 | 分类于大数据开发工程师，大数据

字数统计: 6.2k | 阅读时长 ≈ 27

第十一周 Spark性能优化的道与术-2checkpoint概述1234checkpoint，是Spark提供的一个比较高级的功能。有时候，我们的Spark任务，比较复杂，从初始化RDD开始，到最后整个任务完成，有比较多的步骤，比如超过10个transformation算子。而且，整个任务运行的时间也特别长，比如通常要运行1~2个小时。在这种情况下，就比较适合使用checkpoint功能了。因为对于特别复杂的Spark任务，有很高的风险会出现某个要反复使用的RDD因为节点的故障导致丢失，虽然之前持久化过，但是还是导致数据丢失了。那么也就是说，出现失败的时候，没有容错机制，所以当后面的 ...

阅读全文 »

大数据开发工程师-第十一周 Spark性能优化的道与术-1

发表于 2023-03-27 | 分类于大数据开发工程师，大数据

字数统计: 2.7k | 阅读时长 ≈ 9

第十一周 Spark性能优化的道与术-1宽依赖和窄依赖123456先看一下什么是窄依赖：窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父RDD和子RDD的partition之间的对应关系，是一对一的。宽依赖(Shuffle Dependency)：父RDD的每个分区都可能被子RDD的多个分区使用，例如groupByKey、reduceByKey，sortBykey等算 ...

阅读全文 »

IDEA使用经验积累

发表于 2023-03-24

字数统计: 96 | 阅读时长 ≈ 1

IDEA使用经验积累运行程序报错内存不够12run->edit configuration->vm option-Xms1024m -Xmx1024m Maven创建项目编辑spark程序时123456本地运行这个表示使用相关spark依赖在spark集群运行时要把注释去掉，表示不使用相关spark依赖快捷键1ctrl+alt+v:快速创建返回类型

阅读全文 »