找工作遇到的常识问题
大数据
OLAP
1 | online analytical processing |
OLTP
1 | online transaction processing |
ETL
1 | extract transform load |
Flume
1 | 分布式的 |
kafka
1 | 分布式的 |
Flink
1 | 历史数据 批处理 |
Hive
1 | 是建立在hadoop之上的数据仓库基础框架 |
NLP
1 | natural language processing |
Scala
1 | 学它是因为spark要用到,其实也支持java,但scala比java更优 |
HBase
1 | HBase是从hadoop中分离出来的nosql系统 |
CDH、HDP、CDP
1 | CDH:cloudera's distribution including apache hadoop |
ES
1 | elasticsearch弹性搜索 搜索和分析引擎 |
Aireflow
1 | Airflow是一个以编程方式编写,安排和监视工作流的平台。 |
Zookeeper
1 | 用于解决单点故障的 |
Sqoop
1 | 专门将关系型数据库中的数据导入到hadoop平台 |
DW、BI
1 | DW:data warehouse |
SVM
1 | support vector machine 支持向量机 |
Storm
1 | Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。 |
Impala
1 | Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。 |
Elasticsearch
1 | 1.1普通搜索:搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息 |
1 | 1.2 用数据库做搜索 |
1 | 1.3 全文检索和Lucene |
1 | 1.4 什么是Elasticsearch |
Druid
1 | Druid是一个专为大型数据集上的高性能切片和OLAP分析而设计的数据存储。 |
presto
1 | Presto是一个开源的分布式SQL查询引擎,它以集群的方式运行,采用MPP架构,用在交互式分析查询场景下,可以将多种不同数据量级(从GB到PB)的数据源组合起来进行统一计算。Presto本身只是一个查询引擎,它通过connector的方式完成外部数据源的接入;也就是说通过使用Presto提供的ANSI标准SQL,可以完成多种数据源的标准化计算工作。 |
clickhouse
1 | clickHouse是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库,使用 C++ 语言编写; |
1 | 专门用于 OLAP(联机分析处理),其性能惊人; |
互联网
ERP
1 | eterprise resource planning |
BP
1 | business planning |
BI
1 | business intelligence |
Tableau、PowerBi
1 | 一款可视化分析软件 |
Flask
1 | 是python编写的web微框架 |
OA
1 | Office Automation 办公自动化 |