TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

大数据开发工程师-第八周 第2章 数据库与数据仓库的区别

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.8k | 阅读时长 ≈ 12
第八周 第2章 数据库与数据仓库的区别Hive VS Mysql1234567891011为了加深对Hive的理解,下面我们拿Hive和我们经常使用的Mysql做一个对比 HIVE MySQL数据存储位置 HDFS 本地磁盘数据格式 用户定义 系统决定数据更新 不支持(不支持修改和删除,新增) 支持(支持增删)索引 有,但较弱,一般很少用 有,经常使用执行 MapReduce Executor执行延迟 高 低可扩展性 高 低数据规模 大 小 数据库VS ...
阅读全文 »

大数据开发工程师-第八周 第1章 快速了解Hive

发表于 2022-02-20 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.7k | 阅读时长 ≈ 5
第八周 第1章 快速了解Hive什么是Hive1234Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者开发自定义的mapreduce任务来处理内建的SQL函数无法完成的复杂的分析任务。Hive中包含的有SQL解析引擎,它会将SQL语句转译成M/R Job,然后在Hadoop中执行。通过这里的分析我们可以了解到Hive可以通过sql查询Hadoop中的数据, ...
阅读全文 »

写linux的shell脚本方法积累

发表于 2022-02-18 | 分类于 linux
字数统计: 371 | 阅读时长 ≈ 1
写linux的shell脚本方法积累案例112345678910111213#!/bin/bash# 循环向文件中生成数据# 下面括号里没空格会报错while [ "1"="1" ]do # 获取当前时间戳 curr_time=`date +%s` # 获取当前主机名 name=`hostname` echo ${name}_${curr_time} > ...
阅读全文 »

大数据开发工程师-第七周 第2章 极速上手Flume使用 采集网络日志上传到HDFS

发表于 2022-02-18 | 分类于 大数据开发工程师 , 大数据
字数统计: 1.9k | 阅读时长 ≈ 8
第七周 第2章 极速上手Flume使用 采集网络日志上传到HDFS1234567前面我们讲了两个案例的使用,接下来看一个稍微复杂一点的案例:需求是这样的,1. 将A和B两台机器实时产生的日志数据汇总到机器C中2. 通过机器C将数据统一上传至HDFS的指定目录中注意:HDFS中的目录是按天生成的,每天一个目录看下面这个图,来详细分析一下 12345678910111213根据刚才的需求分析可知,我们一共需要三台机器这里使用bigdata02和bigdata03采集当前机器上产生的实时日志数据,统一汇总到bigdata04机器上。 其中bigdata02和bigdata03中的sour ...
阅读全文 »

大数据开发工程师-第七周 第2章 极速上手Flume使用 采集文件内容到HDFS

发表于 2022-02-18 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.6k | 阅读时长 ≈ 10
第2章 极速上手Flume使用 采集文件内容到HDFS123456接下来我们来看一个工作中的典型案例:采集文件内容上传至HDFS需求:采集目录中已有的文件内容,存储到HDFS分析:source是要基于目录的,channel建议使用file,可以保证不丢数据,sink使用hdfs下面要做的就是配置Agent了,可以把example.conf拿过来修改一下,新的文件名为file-to-hdfs.conf首先是基于目录的source,咱们前面说过,Spooling Directory Source可以实现目录监控来看一下这个Spooling Directory Source source ...
阅读全文 »

大数据开发工程师-第七周 第3章 Flume核心复盘篇

发表于 2022-02-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 0 | 阅读时长 ≈ 1
阅读全文 »

大数据开发工程师-第七周 第3章 Flume出神入化篇

发表于 2022-02-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.8k | 阅读时长 ≈ 11
第七周 第3章 Flume出神入化篇各种自定义组件123456789101112131415161718咱们前面讲了很多组件,有核心组件和高级组件source、channel、sink以及Source Interceptors,Channel Selectors、Sink Processors针对这些组件,Flume都内置提供了组件的很多具体实现,在实际工作中,95%以上的数据采集需求都是可以满足的,但是谁也不敢保证100%都能满足,因为什么奇葩的需求都会有,那针对系统内没有提供的一些组件怎么办呢?假设我们想把flume采集到的数据输出到mysql中,那这个时候就需要有针对mysql的s ...
阅读全文 »

大数据开发工程师-第七周 第3章 精讲Flume高级组件

发表于 2022-02-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 5.1k | 阅读时长 ≈ 22
第七周 第3章 精讲Flume高级组件1前面我们掌握了Flume中的核心组件 source、channel、sink的使用,下面我们来学习一下Flume中的一些高级组件的使用 高级组件1234567Source Interceptors:Source可以指定一个或者多个拦截器按先后顺序依次对采集到的数据进行处理。Channel Selectors:Source发往多个Channel的策略设置,如果source后面接了多个channel,到底是给所有的channel都发,还是根据规则发送到不同channel,这些是由Channel Selectors来控制的Sink Processo ...
阅读全文 »

大数据开发工程师-第七周 第2章 极速上手Flume使用

发表于 2022-02-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 5.1k | 阅读时长 ≈ 19
第七周 第2章 极速上手Flume使用Flume的Hello World!12345678910下面我们就想上手操作Flume,具体该怎么做呢?先来看一个入门级别的Hello World案例。我们前面说了,启动Flume任务其实就是启动一个Agent,Agent是由source、channel、sink组成的,这些组件在使用的时候只需要写几行配置就可以了那下面我们就看一下source、channel、sink该如何配置呢?接下来带着大家看一下官网找到左边的documentation,查看文档信息其实Flume的操作文档是非常良心的,整理的非常详细,给flume的维护者们点个赞。进入Flu ...
阅读全文 »

大数据开发工程师-第七周 第1章 极速入门Flume

发表于 2022-02-16 | 分类于 大数据开发工程师 , 大数据
字数统计: 2.5k | 阅读时长 ≈ 8
第七周 第1章 极速入门什么是Flume123456789先来看一下官方解释Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统,能够有效的收集、聚合、移动大量的日志数据。其实通俗一点来说就是Flume是一个很靠谱,很方便、很强的日志采集工具。他是目前大数据领域数据采集最常用的一个框架为什么它这么香呢?主要是因为使用Flume采集数据不需要写一行代码,注意是一行代码都不需要,只需要在配置文件中随便写几行配置Flume就会死心塌地的给你干活了,是不是很香?看这个图,这个属于Flume的一个非常典型的应用场景,使用Flume采集数据,最终存储到HDFS上。 123456 ...
阅读全文 »
上一页1…121314…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%