hadoop理论课-第七章Flume


Flume(了解)

用于采集数据

Flume 产生的背景

通过中间系统,将数据推送到 HDFS 或类似的存储系统是很普遍的。这些系统能在数据生产者和最终目的地之间起缓冲作用,使得偶然突发写入 HDFS 和 HBase 集群的请求,变得可以持续而平稳

Flume 简介

Flume 是 Cloudera 提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统

Apache Flume 是一个系统,用于从大量数据生产商那里移动海量数据到存储、索引或分析数据的系统

Flume 安装

不支持windows安装

需要配置环境变量

Flume的架构

Agent

Flume 运行的核心是 Agent。 Agent 本身是一个 Java 进程,也是 Flume 中最小的独立运行单位,运行在日志收集节点。

Flume核心Agent = source(采集) + channel(缓存数据) + sink(保存日志)

一般一个机器运行一个Agent, 但在一个Agent中可以包含多个Source,channel和sink

event

Flume 基于数据流进行设计,数据流由事件( Event)贯穿始终。事件作为 Flume 的基本数据单位,携带日志数据(以字节数组形式)并且携带有头信息,由 Agent 外部的数据源(如图 7-2 中的 Web Server)生成

Flume 应用

Flume的组件类型及其配置

Flume的配置方法

一定义,三配置

t9LHeJ.png

运行方法


本文标题:hadoop理论课-第七章Flume

文章作者:TTYONG

发布时间:2020年05月25日 - 16:05

最后更新:2022年05月04日 - 18:05

原始链接:http://tianyong.fun/hadoop%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%B8%83%E7%AB%A0Flume(%E7%90%86%E8%AE%BA%E8%AF%BE).html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%