TianYong's Blog

大数据开发工程师-第五周第二章实战 WordCount

发表于 2022-02-09 | 分类于大数据开发工程师，大数据

字数统计: 2.8k | 阅读时长 ≈ 12

第五周第二章实战 WordCountWordCount案例图解 12```下面我们来看一个两个文件的执行流程 WordCount案例开发12345前面我们通过理论层面详细分析了单词计数的执行流程，下面我们就来实际上手操作一下。大致流程如下：第一步：开发Map阶段代码第二步：开发Reduce阶段代码第三步：组装Job 源码1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636 ...

阅读全文 »

大数据开发工程师-第五周第一章初识MapReduce

发表于 2022-02-09 | 分类于大数据开发工程师，大数据

字数统计: 4.2k | 阅读时长 ≈ 15

第五周第一章初识MapReduceHadoop之MapReduce详解前面我们学习了Hadoop中的HDFS，HDFS主要是负责存储海量数据的，如果只是把数据存储起来，除了浪费磁盘空间，是没有任何意义的，我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容，这个时候就需要有一个比较厉害的计算框架，来快速计算这一批海量数据，所以MapReduce应运而生了，那MapReduce是如何实现对海量的快速计算的呢？它的底层原理是什么样的呢？不要着急，且听下面分解。 MapReduce介绍1234567891011121314在这里我们先举个例子来介绍一下MapReduce计 ...

阅读全文 »

大数据开发工程师-第四周第三章 HDFS高级

发表于 2022-02-08 | 分类于大数据开发工程师，大数据

字数统计: 7.5k | 阅读时长 ≈ 34

大数据开发工程师-第四周第三章 HDFS高级HDFS的回收站大数据面试-垃圾桶参考文档参考文档 12345HDFS也有回收站。HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户在Shell命令行删除的文件/目录，会进入到对应的回收站目录中，在回收站中的数据都有一个生存周期，也就是当回收站中的文件/目录在一段时间之内没有被用户恢复的话，HDFS就会自动的把这个文件/目录彻底删除，之后，用户就永远也找不回这个文件/目录了。默认情况下hdfs的回收站是没有开启的，需要通 ...

阅读全文 »

大数据开发工程师-第四周第二章NameNode进阶

发表于 2022-02-08 | 分类于大数据开发工程师，大数据

字数统计: 1.7k | 阅读时长 ≈ 6

大数据开发工程师-第四周第二章NameNode进阶SecondaryNameNode介绍12345刚才在分析edits日志文件的时候我们已经针对SecondaryNameNode做了介绍，在这里再做一个总结，以示重视。SecondaryNameNode主要负责定期的把edits文件中的内容合并到fsimage中这个合并操作称为checkpoint，在合并的时候会对edits中的内容进行转换，生成新的内容保存到fsimage文件中。注意：在NameNode的HA架构中没有SecondaryNameNode进程，文件合并操作会由standby NameNode负责实现(如有多个nameno ...

阅读全文 »

大数据开发工程师-第四周第一章初识NameNode

发表于 2022-02-08 | 分类于大数据开发工程师，大数据

字数统计: 3.3k | 阅读时长 ≈ 14

NameNode介绍1234567 首先是NameNode，NameNode是整个文件系统的管理节点它主要维护着整个文件系统的文件目录树，文件/目录的信息和每个文件对应的数据块列表，并且还负责接收用户的操作请求目录树：表示目录之间的层级关系，就是我们在hdfs上执行ls命令可以看到的那个目录结构信息。文件/目录的信息：表示文件/目录的的一些基本信息，所有者属组修改时间文件大小等信息每个文件对应的数据块列表：如果一个文件太大，那么在集群中存储的时候会对文件进行切割，这个时候就类似于会给文件分成一块一块的，存储到不同机器上面。所以HDFS还要 ...

阅读全文 »

github相关

发表于 2022-02-07 | 分类于 github

字数统计: 1.9k | 阅读时长 ≈ 7

github相关github打不开dev-sidecar123目前更推荐大家去使用【dev-sidecar】，这款软件可以解决99%的GitHub打不开的情况软件链接：https://gitee.com/docmirror/dev-sidecar/releases软件安装：按照他的指示一步步坐就可以了，经常逛GitHub的建议设置为开机自启有用是有用，但是有时不稳定修改hosts链接 github520链接 github下载慢GitHub 文件加速121.https://gh.api.99988866.xy ...

阅读全文 »

IDEA

发表于 2022-02-06 | 分类于 IDEA ， maven

字数统计: 974 | 阅读时长 ≈ 4

IDEA使用IDEA遇到的问题idea解决项目右键没有【maven】菜单选项1问题展示并且在maven窗口项目为灰色原因是因为项目忽略了maven模块。解决方法： file->Settings->Build,Execution,Deployment–>Build Tools->Maven–>Ignored Files 将被勾上的项目去掉就可了.. 使用maven依赖包不能导入url SLF4J: Failed to load class “org.slf4j.impl.StaticLoggerBinder“. SLF4J: Defaulting to ...

阅读全文 »

大数据开发工程师-第三周 Hadoop之HDFS的使用

发表于 2022-02-05 | 分类于大数据开发工程师，大数据

字数统计: 2.1k | 阅读时长 ≈ 8

第三周-Hadoop之HDFS的使用第1章 HDFS介绍假设让我们来设计一个分布式的文件系统，我们该如何设计呢？ 1这种设计架构会存在一个问题，假设同时过来很多人都需要租房子，那么一个二房东是忙不过来的，就会造成阻塞。 1234现在这种设计是，我们去找一个中介公司，这里的主节点就可以理解为一个中介公司这里的从节点就可以理解为是房源，中介公司会在每块房源都安排一个工作人员，当我们找房子的时候，先联系中介公司，中介公司会告诉我们哪里有房子，并且把对应工作人员的信息告诉我们，我们就可以直接去找对应的工作人员去租房子。这样对于中介公司而言，就没什么压力了。中介公司只负责管理房源和工作人员信 ...

阅读全文 »

大数据开发工程师-第一周第5章 Linux总结与走进大数据

发表于 2022-01-30 | 分类于大数据开发工程师，大数据

字数统计: 331 | 阅读时长 ≈ 1

第一周第5章走进大数据什么是大数据？百度地图实时路况12百度地图软件实时上传每个人的位置信息，根据这些大量数据进行路况分析精准路况信息要求：大量数据，相当快的计算速度今日头条为你推荐1用户画像->用户划分->根据同类型用户喜好相互推荐买披萨的故事大数据的产生背景123信息技术的进步云计算技术的兴起：可以将分散的数据集中在数据中心，使处理和分析海量数据成为可能；云计算技术为海量数据存储和访问提供了必要的空间和途径数据资源化的趋势大数据的4v特征1234volume(量大)：存储量大，计算量大 #包括：采集，存储和计算的数据量大variety(多样):来源 ...

阅读全文 »

学习从零开始学大数据和大数据开发工程师 linux上创建的文件

发表于 2022-01-29 | 分类于从零开始学大数据，大数据开发工程师

字数统计: 42 | 阅读时长 ≈ 1

linux上创建的文件或文件夹大数据开发工程师/home/ttyong/my_shell1该文件夹包含自己创建的shell脚本 /data/soft1安装的软件

阅读全文 »