大数据开发工程师-第六周 第四章 Hadoop官方文档使用指北


第六周 第四章 Hadoop官方文档使用指北

Hadoop官方文档使用指北

1
2
3
4
5
6
7
8
9
10
11
前面我们把Hadoop中的HDFS、MapReduce、YARN中比较常用和重要的功能基本都学习完了,但是在后续工作中可能会遇到一些特殊的场景需要用到特殊的知识点,这个时候就需要考验大家的自学能力了,以及后期你再遇到一些新的技术框架,想要从0开始学习的时候
这个时候该如何下手呢?
官方文档是最直接最靠谱的途径

下面我们就以Hadoop官网为例来分析一下:
其实咱们前面学习的很多知识点在官网中都有说明

一般网站上都有这么几个链接,
下载:下载安装包
快速开始:快速安装部署,运行起来
文档:最完整、最权威的技术文档
1
2
3
想要学习框架中的一些知识点,需要点击文档链接进去,但是目前hadoop官网的这个文档链接是有问题的,毕竟是免费开源的,大家就忍了吧
从这里进不去,但是可以从快速开始链接进去,最终结果是一样的。
进来之后默认是集群安装部署的内容,因为快速开始是为了帮助大家快速把这个框架安装部署运行起来,这块内容属于文档中的一部分。
1
2
我们看文档左边的菜单,往下面拉,这里面有HDFS、MapReduce、YARN的内容
所以说以后如果想要查找一些不常用的技术点的时候就可以到这里来查看了。

image-20230316172748671

1
2
3
4
5
大致的步骤就这样了,剩下的就是需要具体看里面的细节内容了。
针对其他技术框架也是一样的,都是这样的思路,大家一定要学会看官方文档,这才是你学习能力的最直接体现。
刚开始可能看起来比较懵,见得多了就熟悉了,看的多了就习惯了,这一步必须要踏出去!
后面我们学习的每个框架我都会带着大家去看一下官网的,时间长了大家就可以掌握 如何通过官网去学习了
学习知识是重要的,但是学习如何去学习是更重要的!

Hadoop在CDH和HDP中的使用

1
2
3
4
5
6
7
8
咱们前面学习了官方的Apache Hadoop版本,我们前面也说了,在实际工作中其实会使用CDH或者HDP,那下面我们就看一下在CDH和HDP中如何操作Hadoop。

注意了,在这里我不打算讲CDH和HDP的安装部署,意义不大,咱们是开发人员,主要侧重于代码开发,安装部署的工作是运维人员的,咱们不能抢饭碗啊,什么都让你做了,别人不就得喝西北风啊,这样太不地道了,对吧。

不过我们在这里要演示,肯定先安装部署了,在这里给大家分享一个好东西,不要告诉别人哦,这里面的东西目前到官网都下载不到了,没有下载链接了,幸亏我之前留的有后手,提前下载了一份。

cloudera-quickstart-vm-5.13.0-0-vmware.zip
HDP_3.0.1_vmware_181205.ova
1
2
3
4
这两个文件可以通过vmware打开,里面已经安装好了CDH和HDP,可以在一台机器上启动,模拟正常的集群环境,这都是在官网上下载的,可以直接使用,非常简单,我们在这主要是为了演示一下如何在CDH和HDP中操作Hadoop,其实说实话,他们在操作的时候没有什么区别,和我们操作原生版本的Hadoop一样,但是呢如果不带着大家去亲身感受一把,大家心里面总是感觉有点虚。

注意了,这里面的cloudera-quickstart-vm-5.13.0-0-vmware.zip这个文件目前官网已经没有下载链接了
HDP_3.0.1_vmware_181205.ova目前是有的。

下面我们就来先演示一下CDH

1
2
3
4
先解压,再使用vmware直接打开即可,选择本地的镜像文件,在这里最好选择centos6.7的iso镜像文件,因为这个操作系统的版本就是centos6.7。
CentOS-6.7-x86_64-minimal.iso

注意了,这个虚拟机默认会使用4G内存,1个CPU,64G的磁盘,内存至少要4个G,太少的话有可能启动不了,在这我把资源调大一些,内存给他分8个G,CPU分2个,这样这个虚拟机运行会快一些,当然了,如果你本地的资源不多的话就使用默认的也可以。

image-20230316173218977

1
2
3
4
5
6
7
接着启动这个虚拟机即可。
在启动之前,先把本地启动的那几台虚拟机关闭掉,要不然启动太多机器容易卡。
启动的过程稍微有点慢,不要着急。

虚拟机启动后,CDH中大数据的所有组件都是启动状态,可以在root账号下通过jsp命令查看已启动的服务
root账号的密码是 cloudera
通过su命令切换到root用户,然后输入root用户的密码即可。

image-20230316173720630

1
2
这里面除了有Hadoop的相关进程,还有其他大数据框架的进程
注意了,CDH和HDP是一个平台,里面可以安装很多大数据组件,Hadoop只是它里面的一个软件而已。就类似于安卓的谷歌市场,苹果的appstore一样。
1
2
3
4
我们尝试操作一下hdfs
在这需要注意一下,我们使用HDFS的全路径尝试一下

结果发现执行报错,这是因为CDH中启动的Hadoop集群,namenode的端口号是8020,不是9000,这一点需要注意一下

image-20230316224022033

image-20230316224034729

image-20230316224141543

1
2
3
4
在这里同样可以访问HDFS的web界面和YARN的web界面
在这里访问HDFS的web界面我们需要使用 50070 端口,因为这里面的hadoop集群的版本是2.6的,在 hadoop2.x 中hdfs的web界面端口是 50070

可以通过hadoop version命令查看版本号

image-20230316224339367

image-20230316224424164

1
YARN的web界面

image-20230316224506181

1
剩下的就没什么区别了,基本使用都是一样的。

接下来看一下HDP

image-20230316230055651

1
根据里面的提示,访问http://192.168.182.130:1080界面;ip是这个虚拟机的ip,这个虚拟机里用docker安装的HDP

image-20230316224856770

1
点击左侧的LAUNCH DASHBOARD

image-20230316224920867

image-20230316224938143

1
2
登录之后会进入如下界面,在HDP中有一个ambari服务,这个服务提供的这个web界面 ,在这个界面中可以很方便的管理大数据组件,这里面就包含我们学习过的HDFS、MapRedcue、YARN。
其实前面的CDH中也有一个cm服务,cm服务启动之后也有如下类似的界面,默认情况下cm服务是没有启动的,启动的话需要至少10G资源,所以前面我就没有启动。

image-20230316225041271

1
下面我们想在命令行下操作一下hdfs,但是这里面并没有命令行,但是它提供了一个基于界面的shell命令行

image-20230316225129655

1
2
访问 http://192.168.182.130:4200
打开之后让输入用户名和密码,用户名为 root ,默认密码为 hadoop

image-20230316225210263

1
接下来就可以操作了

image-20230316225250386

1
这样也可以访问,端口还是8020

image-20230316225321298

1
2
3
接下来我们访问一下HDFS的web界面和YARN的web界面
HDFS的web界面,虽然这里的Hadoop集群是3.1版本的,但是这里的访问端口还是50070,主要是HDP为了不影响大家的使用习惯
http://192.168.182.130:50070/

image-20230316225459786

1
2
YARN的web界面,端口是8088
http://192.168.182.130:8088

image-20230316225530420


本文标题:大数据开发工程师-第六周 第四章 Hadoop官方文档使用指北

文章作者:TTYONG

发布时间:2022年02月13日 - 14:02

最后更新:2023年06月04日 - 15:06

原始链接:http://tianyong.fun/%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88-%E7%AC%AC%E5%85%AD%E5%91%A8-%E7%AC%AC%E5%9B%9B%E7%AB%A0-Hadoop%E5%AE%98%E6%96%B9%E6%96%87%E6%A1%A3%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8C%97.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%