TianYong's Blog

比你优秀的人都努力，有什么理由不努力！

找工作遇到的常识问题

发表于 2023-02-05 | 分类于常识 | 浏览次

字数统计: 1.4k | 阅读时长 ≈ 5

找工作遇到的常识问题

大数据

OLAP

1 2	online analytical processing 操作主体一般是运营、销售、市场等团队人员(通过对数据库数据得出结论性的东西)

OLTP

1 2	online transaction processing 操作主体一般是用户(主要是对数据库数据的增删改查)

ETL

1	extract transform load

Flume

1 2	分布式的日志采集聚集传输系统

kafka

1 2	分布式的流处理平台

Flink

1
2
3

历史数据 批处理
实时数据 流处理
flink支持这两种的计算引擎

Hive

1	是建立在hadoop之上的数据仓库基础框架

NLP

1	natural language processing

Scala

1 2	学它是因为spark要用到，其实也支持java，但scala比java更优与java类似

HBase

1	HBase是从hadoop中分离出来的nosql系统

CDH、HDP、CDP

1
2
3

CDH:cloudera's distribution including apache hadoop
HDP:Hortonworks Data Platform
CDP:cloudera data platform(cloudera和hortonworks合并和推出的产品)

ES

1	elasticsearch弹性搜索搜索和分析引擎

Aireflow

1 2	Airflow是一个以编程方式编写，安排和监视工作流的平台。使用Airflow将工作流编写任务的有向无环图(DAG)。

Zookeeper

用于解决单点故障的

Sqoop

1	专门将关系型数据库中的数据导入到hadoop平台

DW、BI

1 2	DW:data warehouse BI:business intelligence 使决策者能够对企业信息进行有效、合理分析和处理、为决策者提供可靠的依据。

SVM

1
2

support vector machine 支持向量机
是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）

Storm

1	Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。

Impala

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

Elasticsearch

1	1.1普通搜索：搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息

1.2 用数据库做搜索
用数据库来实现搜索，是不太靠谱的。通常来说，性能会很差的。

会逐条扫描

拿着关键词去搜索，第一一般无法将关键词拆分开来(如生化机，无法搜索出生化危机)，第二，当记录很多，且数据描述很长的话，效率会非常低

1.3 全文检索和Lucene
(1)全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找(这个过程类似于通过字典中的检索字表查字的过程。)

(2)lucene，就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包括各种算法。我们就用java开发的时候，引入lucene jar，然后基于lucene的api进行去进行开发就可以了。

1.4 什么是Elasticsearch
Elasticsearch，基于lucene，隐藏复杂性，提供简单易用的restful api接口、java api接口（还有其他语言的api接口）。

Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。

全文检索：将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。

结构化检索：我想搜索商品分类为日化用品的商品都有哪些，select * from products where category_id='日化用品'。

Druid

1
2
3

Druid是一个专为大型数据集上的高性能切片和OLAP分析而设计的数据存储。

Druid提供低延时的数据插入，实时的数据查询。

presto

Presto是一个开源的分布式SQL查询引擎，它以集群的方式运行，采用MPP架构，用在交互式分析查询场景下，可以将多种不同数据量级（从GB到PB）的数据源组合起来进行统一计算。Presto本身只是一个查询引擎，它通过connector的方式完成外部数据源的接入；也就是说通过使用Presto提供的ANSI标准SQL，可以完成多种数据源的标准化计算工作。

clickhouse

clickHouse是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库，使用 C++ 语言编写；

一款面向 OLAP 的数据库
ClickHouse支持类SQL语言，提供了传统关系型数据的便利

专门用于 OLAP（联机分析处理），其性能惊人；

高性能面向 OLAP 的数据库，不擅长的方面：

不支持事务
不擅长根据主键按行粒度进行查询（虽然支持），所以不应该把 ClickHouse 当做键值对数据库使用
不擅长按行删除数据（虽然支持）
对于 OLAP 数据库而言，上述这些能力不是重点，只能说这是为了极致的查询性能所做的权衡。

互联网

ERP

1	eterprise resource planning

BP

1	business planning

BI

1	business intelligence

Tableau、PowerBi

一款可视化分析软件

Flask

1	是python编写的web微框架

OA

1	Office Automation 办公自动化

本文标题:找工作遇到的常识问题

文章作者:TTYONG

发布时间:2023年02月05日 - 15:02

最后更新:2023年02月23日 - 20:02

原始链接:http://tianyong.fun/%E6%89%BE%E5%B7%A5%E4%BD%9C%E9%81%87%E5%88%B0%E7%9A%84%E5%B8%B8%E8%AF%86%E9%97%AE%E9%A2%98.html

许可协议: 转载请保留原文链接及作者。

多少都是爱

0%