找工作遇到的常识问题


找工作遇到的常识问题

大数据

OLAP

1
2
online analytical processing
操作主体一般是运营、销售、市场等团队人员(通过对数据库数据得出结论性的东西)

OLTP

1
2
online transaction processing
操作主体一般是用户(主要是对数据库数据的增删改查)

参考来源

ETL

1
extract transform load

Flume

1
2
分布式的
日志采集 聚集 传输系统

kafka

1
2
分布式的
流处理平台
1
2
3
历史数据 批处理
实时数据 流处理
flink支持这两种的计算引擎

Hive

1
是建立在hadoop之上的数据仓库基础框架

NLP

1
natural language processing

Scala

1
2
学它是因为spark要用到,其实也支持java,但scala比java更优
与java类似

HBase

1
HBase是从hadoop中分离出来的nosql系统

CDH、HDP、CDP

1
2
3
CDH:cloudera's distribution including apache hadoop
HDP:Hortonworks Data Platform
CDP:cloudera data platform(cloudera和hortonworks合并和推出的产品)

参考来源

ES

1
elasticsearch弹性搜索 搜索和分析引擎

Aireflow

1
2
Airflow是一个以编程方式编写,安排和监视工作流的平台。
使用Airflow将工作流编写任务的有向无环图(DAG)。

参考来源

参考来源

Zookeeper

1
用于解决单点故障的

Sqoop

1
专门将关系型数据库中的数据导入到hadoop平台

DW、BI

1
2
DW:data warehouse
BI:business intelligence 使决策者能够对企业信息进行有效、合理分析和处理、为决策者提供可靠的依据。

SVM

1
2
support vector machine 支持向量机
是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)

Storm

1
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。

参考来源

Impala

1
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

Elasticsearch

1
1.1普通搜索:搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息
1
2
3
4
5
6
1.2 用数据库做搜索
用数据库来实现搜索,是不太靠谱的。通常来说,性能会很差的。

会逐条扫描

拿着关键词去搜索,第一一般无法将关键词拆分开来(如生化机,无法搜索出生化危机),第二,当记录很多,且数据描述很长的话,效率会非常低
1
2
3
4
1.3 全文检索和Lucene
(1)全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找(这个过程类似于通过字典中的检索字表查字的过程。)

(2)lucene,就是一个jar包,里面包含了封装好的各种建立倒排索引,以及进行搜索的代码,包括各种算法。我们就用java开发的时候,引入lucene jar,然后基于lucene的api进行去进行开发就可以了。
1
2
3
4
5
6
7
8
1.4 什么是Elasticsearch
Elasticsearch,基于lucene,隐藏复杂性,提供简单易用的restful api接口、java api接口(还有其他语言的api接口)。

Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。

全文检索:将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。

结构化检索:我想搜索商品分类为日化用品的商品都有哪些,select * from products where category_id='日化用品'。

参考

Druid

1
2
3
Druid是一个专为大型数据集上的高性能切片和OLAP分析而设计的数据存储。

Druid提供低延时的数据插入,实时的数据查询。

参考

presto

1
Presto是一个开源的分布式SQL查询引擎,它以集群的方式运行,采用MPP架构,用在交互式分析查询场景下,可以将多种不同数据量级(从GB到PB)的数据源组合起来进行统一计算。Presto本身只是一个查询引擎,它通过connector的方式完成外部数据源的接入;也就是说通过使用Presto提供的ANSI标准SQL,可以完成多种数据源的标准化计算工作。

clickhouse

1
2
3
4
clickHouse是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库,使用 C++ 语言编写;

一款面向 OLAP 的数据库
ClickHouse支持类SQL语言,提供了传统关系型数据的便利
1
2
3
4
5
6
7
8
专门用于 OLAP(联机分析处理),其性能惊人;

高性能面向 OLAP 的数据库,不擅长的方面:

不支持事务
不擅长根据主键按行粒度进行查询(虽然支持),所以不应该把 ClickHouse 当做键值对数据库使用
不擅长按行删除数据(虽然支持)
对于 OLAP 数据库而言,上述这些能力不是重点,只能说这是为了极致的查询性能所做的权衡。

参考

互联网

ERP

1
eterprise resource planning

BP

1
business planning

BI

1
business intelligence

Tableau、PowerBi

1
一款可视化分析软件

Flask

1
是python编写的web微框架

OA

1
Office Automation 办公自动化

本文标题:找工作遇到的常识问题

文章作者:TTYONG

发布时间:2023年02月05日 - 15:02

最后更新:2023年02月23日 - 20:02

原始链接:http://tianyong.fun/%E6%89%BE%E5%B7%A5%E4%BD%9C%E9%81%87%E5%88%B0%E7%9A%84%E5%B8%B8%E8%AF%86%E9%97%AE%E9%A2%98.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%