hadoop理论课-第六章Hbase, Hive, Pig


Hive(重点)

Hive简介

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

Hive是一个翻译器:SQL —> Hive引擎 —> MapReduce程序

Hive是构建在HDFS上的一个数据仓库(Data Warehouse)

为什么要使用Hive?

直接使用 MapReduce 所面临的问题:
  1、人员学习成本太高
  2、项目周期要求太短
  3、MapReduce实现复杂查询逻辑开发难度太大
为什么要使用 Hive:
  1、更友好的接口:操作接口采用类 SQL 的语法,提供快速开发的能力。
2、更低的学习成本:避免了写 MapReduce,减少开发人员的学习成本,使
DBA、运维人员可以通过SQL来实现操作大数据。
3、更好的扩展性:可自由扩展集群规模而无需重启服务,还支持用户自定
义函数。    

安装Hive

Metastore三种运行模式

Yf53HH.png

了解Metastore配置属性

YfIfJI.png

安装Hive

YfoHc6.png

Hive的架构与工作原理

Hive体系结构

YfTbPs.png

CLI(终端):常采用这个

Hive工作原理

Yf7rQ0.png

Hive与传统数据库的比较

YfHiTg.png

HiveQL

Hive支持的数据类型

YfbJUg.png

建表命令

1
CREATE TABLE 表名(...)

YfL639.png

数据加载命名

导入HDFS数据

YfXdFU.png

会把hdfs中对应文件移动到hive仓库中

导入本地数据
YfXUoT.png

复制

数据模型

内部表(托管表)
特点

YfjLuR.md.png

创建内部表
Yfjbv9.md.png
外部表
特点

Yfx0fS.md.png

创建外部表

YfxwY8.md.png

分区表

YfzCnA.png

桶表

YfzQ7q.png

临时表

YfzfHI.png

视图
特点

YhSlKH.md.png

创建

YhSMxe.md.png

数据查询

YhpZLj.png

YhpWkt.png

条件函数

Yh9pX4.png

Hive不支持数据删除和修改

用户自定义函数

Yh9BEn.md.png
Yh9r40.md.png

Hive如何调优

Yh9DNq.md.png


本文标题:hadoop理论课-第六章Hbase, Hive, Pig

文章作者:TTYONG

发布时间:2020年05月11日 - 16:05

最后更新:2023年06月04日 - 15:06

原始链接:http://tianyong.fun/hadoop%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%BA%94%E7%94%A8-%E7%AC%AC%E5%85%AD%E7%AB%A0%20Hive(%E7%90%86%E8%AE%BA%E8%AF%BE).html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%