TianYong's Blog

java使用技巧积累

发表于 2022-02-14 | 分类于 java

字数统计: 964 | 阅读时长 ≈ 5

java使用技巧积累休眠固定时间1Thread.sleep((1)); java生成文件1234567891011121314private static void generate_141M() throws IOException { String fileName = "D:\\s_name_141.dat"; System.out.println("start: 开始生成141M文件->" + fileName); BufferedWriter bfw = new BufferedWriter(new FileWrite ...

阅读全文 »

java写文件和读文件

发表于 2022-02-14 | 分类于 java

字数统计: 8 | 阅读时长 ≈ 1

java写文件和读文件url

阅读全文 »

大数据开发工程师-第六周第四章 Hadoop官方文档使用指北

发表于 2022-02-13 | 分类于大数据开发工程师，大数据

字数统计: 1.9k | 阅读时长 ≈ 6

第六周第四章 Hadoop官方文档使用指北Hadoop官方文档使用指北1234567891011前面我们把Hadoop中的HDFS、MapReduce、YARN中比较常用和重要的功能基本都学习完了，但是在后续工作中可能会遇到一些特殊的场景需要用到特殊的知识点，这个时候就需要考验大家的自学能力了，以及后期你再遇到一些新的技术框架，想要从0开始学习的时候这个时候该如何下手呢？官方文档是最直接最靠谱的途径下面我们就以Hadoop官网为例来分析一下：其实咱们前面学习的很多知识点在官网中都有说明一般网站上都有这么几个链接，下载：下载安装包快速开始：快速安装部署，运行起来文档：最完整、最权威的技术 ...

阅读全文 »

大数据开发工程师-第六周第三章 YARN实战

发表于 2022-02-13 | 分类于大数据开发工程师，大数据

字数统计: 2.8k | 阅读时长 ≈ 10

第六周第三章 YARN实战HADOOP之YARN详解1前面我们学习了Hadoop中的MapReduce，我们知道MapReduce任务是需要在YARN中执行的，那下面我们就来学习一下Hadoop中的YARN YARN的由来12从Hadoop2开始，官方把资源管理单独剥离出来，主要是为了考虑后期作为一个公共的资源管理平台，任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享，不仅仅可以跑MapRedcue，还可以跑Spark、Flink。 YARN架构分析1234咱们之前部署Hadoop集群的时候也对YARN的架构有了基本的了解YARN主要负责集群 ...

阅读全文 »

大数据开发工程师-第六周第二章剖析数据倾向问题与企业级解决方案

发表于 2022-02-13 | 分类于大数据开发工程师，大数据

字数统计: 6.1k | 阅读时长 ≈ 25

第六周第二章剖析数据倾向问题与企业级解决方案123456 在实际工作中，如果我们想提高MapReduce的执行效率，最直接的方法是什么呢？我们知道MapReduce是分为Map阶段和Reduce阶段，其实提高执行效率就是提高这两个阶段的执行效率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的，InputSplit的个数一般是和Block块是有关联的，所以可以认为Map任务的个数和数据的block块个数有关系，针对Map任务的个数我们一般是不需要干预的，除非是前面我们说的海量小文件，那个时候可以考虑把小文件合并成大文件。其他情况是不需要调整的，那就剩下Red ...

阅读全文 »

大数据开发工程师-第六周第一章剖析小文件问题与企业级解决方案

发表于 2022-02-13 | 分类于大数据开发工程师，大数据

字数统计: 3.2k | 阅读时长 ≈ 14

第六周第一章剖析小文件问题与企业级解决方案MapReduce性能优化123456现在大家已经掌握了MapReduce程序的开发步骤，注意了，针对MapReduce的案例我们并没有讲太多，主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了，因为后面我们会学习一个大数据框架Hive，Hive支持SQL，这个Hive底层会把SQL转化为MapReduce执行，不需要我们写一行代码，所以说工作中的大部分需求我们都使用SQL去实现了，谁还苦巴巴的来写代码啊，一行SQL能抵你写的几十行代码，你还想去写MapReduce代码吗，肯定不想了。但是MapReduce代码 ...

阅读全文 »

廖雪峰java教程笔记-java数组操作

发表于 2022-02-10 | 分类于廖雪峰java笔记

字数统计: 1.3k | 阅读时长 ≈ 5

数组操作遍历数组for通过索引 for each直接得到元素打印数组内容123456789101112131415161718191.直接打印数组变量，得到的是数组在JVM中的引用地址：int[] ns = { 1, 1, 2, 3, 5, 8 };System.out.println(ns); // 类似 [I@7852e922 2.这并没有什么意义，因为我们希望打印的数组的元素内容。因此，使用for each循环来打印它：int[] ns = { 1, 1, 2, 3, 5, 8 ...

阅读全文 »

廖雪峰java教程笔记-java流程控制

发表于 2022-02-10 | 分类于廖雪峰java笔记

字数统计: 2k | 阅读时长 ≈ 8

流程控制输入输出输出12System.out.println 换行System.out.print 不换行格式化输出123printf("%.3f", d)%表示占位符，连续两个%%表示% 输入1234567891011121314和输出相比，Java的输入就要复杂得多。我们先看一个从控制台读取一个字符串和一个整数的例子：import java.util.Scanner;public class Main { public static void main(String[] args) { Scanner scanner = new Sc ...

阅读全文 »

大数据开发工程师-第五周第四章精讲Shuffle执行过程及源码分析输入输出

发表于 2022-02-09 | 分类于大数据开发工程师，大数据

字数统计: 3.4k | 阅读时长 ≈ 13

第五周第四章精讲Shuffle执行过程及源码分析输入输出Shuffle过程详解1咱们前面简单说过，shuffer是一个网络拷贝的过程，是指通过网络把数据从map端拷贝到reduce端的过程，下面我们来详细分析一下这个过程 123接下来我们来根据这张图分析一下shuffle的一些细节信息，首先看map阶段，最左边有一个input split，最终会产生一个map任务，map任务在执行的时候会把k1,v1转化为k2,v2，这些数据会先临时存储到一个内存缓冲区中，这个内存缓冲区的大小默认是100M（io.sort.mb属性），当达到内存缓冲区大小的80%（io.sort.spi ...

阅读全文 »

大数据开发工程师-第五周第三章深入 MapReduce

发表于 2022-02-09 | 分类于大数据开发工程师，大数据

字数统计: 2.7k | 阅读时长 ≈ 11

第五周第三章深入 MapReduceMapReduce任务日志查看12345如果想要查看mapreduce任务执行过程产生的日志信息怎么办呢？是不是在提交任务的时候直接在这个控制台上就能看到了？先不要着急，我们先在代码中增加一些日志信息，在实际工作中做调试的时候这个也是很有必要的在自定义mapper类的map函数中增加一个输出，将k1,v1的值打印出来在自定义reducer类中的reduce方法中增加一个输出，将k2,v2和k3,v3的值打印出来开启yarn的日志聚合功能方式自定义日志map函数修改123456789101112131415protected void map(L ...

阅读全文 »