TianYong's Blog

大数据开发工程师-第八周第2章数据库与数据仓库的区别

发表于 2022-02-20 | 分类于大数据开发工程师，大数据

字数统计: 2.8k | 阅读时长 ≈ 12

第八周第2章数据库与数据仓库的区别Hive VS Mysql1234567891011为了加深对Hive的理解，下面我们拿Hive和我们经常使用的Mysql做一个对比 HIVE MySQL数据存储位置 HDFS 本地磁盘数据格式用户定义系统决定数据更新不支持(不支持修改和删除,新增) 支持(支持增删)索引有，但较弱，一般很少用有，经常使用执行 MapReduce Executor执行延迟高低可扩展性高低数据规模大小数据库VS ...

阅读全文 »

大数据开发工程师-第八周第1章快速了解Hive

发表于 2022-02-20 | 分类于大数据开发工程师，大数据

字数统计: 1.7k | 阅读时长 ≈ 5

第八周第1章快速了解Hive什么是Hive1234Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载，可以简称为ETL。Hive 定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户直接查询Hadoop中的数据，同时，这个语言也允许熟悉MapReduce的开发者开发自定义的mapreduce任务来处理内建的SQL函数无法完成的复杂的分析任务。Hive中包含的有SQL解析引擎，它会将SQL语句转译成M/R Job,然后在Hadoop中执行。通过这里的分析我们可以了解到Hive可以通过sql查询Hadoop中的数据， ...

阅读全文 »

写linux的shell脚本方法积累

发表于 2022-02-18 | 分类于 linux

字数统计: 371 | 阅读时长 ≈ 1

写linux的shell脚本方法积累案例112345678910111213#!/bin/bash# 循环向文件中生成数据# 下面括号里没空格会报错while [ "1"="1" ]do # 获取当前时间戳 curr_time=`date +%s` # 获取当前主机名 name=`hostname` echo ${name}_${curr_time} > ...

阅读全文 »

大数据开发工程师-第七周第2章极速上手Flume使用采集网络日志上传到HDFS

发表于 2022-02-18 | 分类于大数据开发工程师，大数据

字数统计: 1.9k | 阅读时长 ≈ 8

第七周第2章极速上手Flume使用采集网络日志上传到HDFS1234567前面我们讲了两个案例的使用，接下来看一个稍微复杂一点的案例：需求是这样的，1. 将A和B两台机器实时产生的日志数据汇总到机器C中2. 通过机器C将数据统一上传至HDFS的指定目录中注意：HDFS中的目录是按天生成的，每天一个目录看下面这个图，来详细分析一下 12345678910111213根据刚才的需求分析可知，我们一共需要三台机器这里使用bigdata02和bigdata03采集当前机器上产生的实时日志数据，统一汇总到bigdata04机器上。其中bigdata02和bigdata03中的sour ...

阅读全文 »

大数据开发工程师-第七周第2章极速上手Flume使用采集文件内容到HDFS

发表于 2022-02-18 | 分类于大数据开发工程师，大数据

字数统计: 2.6k | 阅读时长 ≈ 10

第2章极速上手Flume使用采集文件内容到HDFS123456接下来我们来看一个工作中的典型案例：采集文件内容上传至HDFS需求：采集目录中已有的文件内容，存储到HDFS分析：source是要基于目录的，channel建议使用file，可以保证不丢数据，sink使用hdfs下面要做的就是配置Agent了，可以把example.conf拿过来修改一下，新的文件名为file-to-hdfs.conf首先是基于目录的source，咱们前面说过，Spooling Directory Source可以实现目录监控来看一下这个Spooling Directory Source source ...

阅读全文 »