TianYong's Blog

大数据开发工程师-极速上手内存数据库Redis-2

发表于 2023-06-15 | 分类于大数据开发工程师，大数据

字数统计: 0 | 阅读时长 ≈ 1

大数据开发工程师-极速上手内存数据库Redis-1

发表于 2023-06-15 | 分类于大数据开发工程师，大数据

字数统计: 11.8k | 阅读时长 ≈ 48

极速上手内存数据库Redis-1快速了解Redis什么是Redis123456789101112Redis是一种面向 “Key-Value” 数据类型的内存数据库，可以满足我们对海量数据的快速读写需求注意：首先Redis是一种内存数据库，它的数据都是放在内存里面的，然后Redis中存储的数据都是key-value类型的其中redis中的key只能是字符串，value支持多种数据类型常见的有string、hash、list、set、sortedset等字符串 string哈希 hash，类似于java中的hashmap字符串列表 list字符串集合 set 不重复，无序有序集合sort ...

阅读全文 »

大数据开发工程师-快速上手NoSQL数据库HBase-3

发表于 2023-06-13 | 分类于大数据开发工程师，大数据

字数统计: 4.9k | 阅读时长 ≈ 20

快速上手NoSQL数据库HBase-35 HBase调优策略和扩展内容HBase 调忧策略预分区123456HBase默认新建的表中只有一个Region，这个Region的Rowkey是没有边界的，即没有startRowkey和endRowkey，在数据写入时，所有数据都会写入这个默认的Region随着数据量的不断增加，此Region已经不能承受不断增长的数据量，会进行Split，分裂成2个Region。在这个过程中，会产生两个问题：-数据往一个Region上写,会有写热点问题。-Region split会消耗宝贵的集群IO资源。 1234567基于此我们可以控制在建表的时候，创建 ...

阅读全文 »

大数据开发工程师-快速上手NoSQL数据库HBase-2

发表于 2023-06-13 | 分类于大数据开发工程师，大数据

字数统计: 13k | 阅读时长 ≈ 57

快速上手NoSQL数据库HBase-23 深入HBase架构原理Region概念解释123456Region可以翻译为区域，在HBase里面，一个表中的数据，会按照行被横向划分为多个Region。每个Region，按照存储的Rowkey的最小行键和最大行键指定的，使用区间[start Rowkey,end Rowkey)解释：-如果一个文件中数据量很大的时候，从这个大文件中读取数据肯定会比较慢-打开一个小文件查找数据和打开一个大文件查找数据的效率是不一样的 12345678在这个图里面，表t1刚创建的时候默认只有1个Region，后来数据量多了以后，Region会自动分裂，这样 ...

阅读全文 »

大数据开发工程师-快速上手NoSQL数据库HBase-1

发表于 2023-06-13 | 分类于大数据开发工程师，大数据

字数统计: 13.6k | 阅读时长 ≈ 59

快速上手NoSQL数据库HBase-11 快速了解HBaseHBase简介123在前面我们学习过了Hive，一句话概括Hive就是一个数据仓库，更像一个传统意义上的SQL数据库，主要用作数据仓库数据分析，更加强调离线的数据分析，为公司各个业务部门提供数据支撑。但是在我们大数据的处理过程中，不光需要进行OLAP的操作，在有些情况下，也经常需要对数据进行记录级别的更新、删除等操作，也就是OLTP（联机事务处理）的操作，这是Hive所办不到的，那么这个时候就不能用Hive来为我们处理OLTP的业务了，因为Hive不支持事务，那我们使用Oracle总可以吧，当然对于一定范围内的数据是OK，没 ...

阅读全文 »

大数据开发工程师-ES+HBase实现仿百度搜索引擎-2

发表于 2023-06-02 | 分类于大数据开发工程师，大数据

字数统计: 12 | 阅读时长 ≈ 1

ES+HBase实现仿百度搜索引擎-2

阅读全文 »

大数据开发工程师-第十七周-

发表于 2023-06-02

字数统计: 0 | 阅读时长 ≈ 1

阅读全文 »

大数据开发工程师-第十七周-

发表于 2023-06-02

字数统计: 0 | 阅读时长 ≈ 1

阅读全文 »

大数据开发工程师-全文检索引擎Elasticsearch-1

发表于 2023-06-02 | 分类于大数据开发工程师，大数据

字数统计: 10.6k | 阅读时长 ≈ 47

全文检索引擎Elasticsearch-11 快速了解Elasticsearch为什么要学Elasticsearch？123456针对海量数据计算分析，前面我们学习了MapReduce、Hive、Spark、Flink这些计算引擎和分析工具，但是它们侧重的都是对数据的清洗、聚合之类的需求。如果想要在海量数据里面快速查询出一批满足条件的数据，这些计算引擎都需要生成一个任务，提交到集群中去执行，这样中间消耗的时间就长了。并且针对多条件组合查询需求，这些计算引擎在查询的时候基本上都要实现全表扫描了，这样查询效率也是比较低的。所以，为了解决海量数据下的快速检索，以及多条件组合查询需求，Ela ...

阅读全文 »

大数据开发工程师-ES+HBase实现仿百度搜索引擎-1

发表于 2023-06-02 | 分类于大数据开发工程师，大数据

字数统计: 12k | 阅读时长 ≈ 52

ES+HBase实现仿百度搜索引擎-11 企业中快速复杂查询痛点分析大数据领域海量数据存储现状1首先来分析一下目前大数据领域中的一些数据存储系统：HDFS、HBase、Kudu 12345-HDFS：是一个分布式文件系统，适合文本类型数据存储，不支持修改删除，适合一次写入，多次读取的场景。借助于Hive可以实现基于SQL的海量数据分析。HDFS在实际工作中是最常见的。-HBase：是一个NoSQL类型的数据库，支持海量数据的增删改查，基于Rowkey查询效率高，针对普通字段查询效率非常低。HBase不支持传统的SQL语法，不适合做数据分析。在企业中的应用场景有限，仅适用于有修改删 ...

阅读全文 »