Flume(了解)

用于采集数据

Flume 产生的背景

通过中间系统，将数据推送到 HDFS 或类似的存储系统是很普遍的。这些系统能在数据生产者和最终目的地之间起缓冲作用，使得偶然突发写入 HDFS 和 HBase 集群的请求，变得可以持续而平稳

Flume 是 Cloudera 提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统

Apache Flume 是一个系统，用于从大量数据生产商那里移动海量数据到存储、索引或分析数据的系统

不支持windows安装

需要配置环境变量

Flume 运行的核心是 Agent。 Agent 本身是一个 Java 进程，也是 Flume 中最小的独立运行单位，运行在日志收集节点。

Flume核心Agent = source(采集) + channel(缓存数据) + sink(保存日志)

一般一个机器运行一个Agent，但在一个Agent中可以包含多个Source，channel和sink

Flume 基于数据流进行设计，数据流由事件（ Event）贯穿始终。事件作为 Flume 的基本数据单位，携带日志数据（以字节数组形式）并且携带有头信息，由 Agent 外部的数据源（如图 7-2 中的 Web Server）生成