林子雨 大数据技术原理与应用-第5章 NoSQL数据库


第5章 NoSQL数据库

NoSQL简介

image-20230301003541415

1
2
3
4
通常,NoSQL数据库具有以下几个特点:
(1)灵活的可扩展性
(2)灵活的数据模型
(3)与云计算紧密融合

NoSQL兴起的原因

1
2
3
4
关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:
(1)无法满足海量数据的管理需求
(2)无法满足数据高并发的需求
(3)无法满足高可扩展性和高可用性的需求
1
2
3
4
5
6
(主从机制实现读写负载分离,同步或异步传输)--到--->分库分表
MySQL集群是否可以完全解决问题?
•复杂性:部署、管理、配置很复杂
•数据库复制:MySQL主备之间采用复制方式,只能是异步复制,当主库压力较大时可能产生较大延迟,主备切换可能会丢失最后一部分更新事务,这时往往需要人工介入,备份和恢复不方便
•扩容问题:如果系统压力过大需要增加新的机器,这个过程涉及数据重新划分,整个过程比较复杂,且容易出错
•动态数据迁移问题:如果某个数据库组压力过大,需要将其中部分数据迁移出去,迁移过程需要总控节点整体协调,以及数据库节点的配合。这个过程很难做到自动化

image-20230301004517003

1
2
3
4
“One size fits all”模式很难适用于截然不同的业务场景
•关系模型作为统一的数据模型既被用于数据分析,也被用于在线业务。但这两者一个强调高吞吐,一个强调低延时,已经演化出完全不同的架构。用同一套模型来抽象显然是不合适的
•Hadoop就是针对数据分析
•MongoDB、Redis等是针对在线业务,两者都抛弃了关系模型
1
2
3
4
关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0时代却成了鸡肋,主要表现在以下几个方面:
(1)Web2.0网站系统通常不要求严格的数据库事务(银行交易)
(2)Web2.0并不要求严格的读写实时性(微博发布后是否快速可见)
(3)Web2.0通常不包含大量复杂的SQL查询(去结构化,存储空间换取更好的查询性能)

NoSQL与关系数据库的比较

1
ACID,是指数据库管理系统(DBMS)在写入或更新资料的过程中,为保证事务(transaction)是正确可靠的,所必须具备的四个特性:原子性(atomicity,或称不可分割性)、一致性(consistency)、隔离性(isolation,又称独立性)、持久性(durability)。
1
RDBMS:关系型数据库管理系统
image-20230228233539924

image-20230228233645936

image-20230228233700240
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
总结
(1)关系数据库
优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持
劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等
(2)NoSQL数据库
优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等
劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等

关系数据库和NoSQL数据库各有优缺点,彼此无法取代
•关系数据库应用场景:电信、银行等领域的关键业务系统,需要保证强事务一致性
•NoSQL数据库应用场景:互联网企业、传统企业的非关键业务(比如数据分析)

采用混合架构
•案例:亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用
•对于“购物篮”这种临时性数据,采用键值存储会更加高效
•当前的产品和订单信息则适合存放在关系数据库中
•大量的历史订单信息则适合保存在类似MongoDB的文档数据库中

NoSQL的四大类型

1
NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库
image-20230228234144829 image-20230228234215303 image-20230228234306458

键值数据库

image-20230228234416688

image-20230228234538745

1
关系型数据库管理系统(Relational Database Management System)RDBMS

列族数据库

image-20230228234918950

文档数据库

1
“文档”其实是一个数据记录,这个记录能够对包含的数据类型和内容进行“自我描述”。XML文档、HTML文档和JSON 文档就属于这一类。SequoiaDB就是使用JSON格式的文档数据库,它的存储的数据是这样的

image-20230228235133485

image-20230228235234768

1
2
3
4
关系数据库:
必须有schema信息才能理解数据的含义
学生(学号,姓名,性别,年龄,系,年级)
(1001,张三,男,20,计算机,2002)
1
2
3
•数据是不规则的,每一条记录包含了所有的有关“SequoiaDB”的信息而没有任何外部的引用,这条记录就是“自包含”的
•这使得记录很容易完全移动到其他服务器,因为这条记录的所有信息都包含在里面了,不需要考虑还有信息在别的表没有一起迁移走
•同时,因为在移动过程中,只有被移动的那一条记录(文档)需要操作,而不像关系型中每个有关联的表都需要锁住来保证一致性,这样一来ACID的保证就会变得更快速,读写的速度也会有很大的提升

image-20230228235722334

图形数据库

image-20230228235744083

NoSQL的三大基石

image-20230228235943292

CAP

1
2
3
C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据
A(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;
P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。
1
CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。
image-20230301000322877 image-20230301012357087 image-20230301012418187 image-20230301012434006
1
2
3
4
5
6
7
8
9
10
当处理CAP的问题时,可以有几个明显的选择:
1.CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最
简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然,这种
做法会严重影响系统的可扩展性。传统的关系数据库(MySQL、SQL Server
和PostgreSQL),都采用了这种设计原则,因此,扩展性都比较差
2.CP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A),当
出现网络分区的情况时,受影响的服务需要等待数据一致,因此在等待期间
就无法对外提供服务
3.AP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C),允
许系统返回不一致的数据
image-20230301012745550

BASE

1
2
说起BASE(Basically Availble, Soft-state, Eventual consistency),
不得不谈到ACID。
image-20230301013119713
1
2
3
4
5
6
7
8
9
一个数据库事务具有ACID四性:
A(Atomicity):原子性,是指事务必须是原子工作单元,对于其数
据修改,要么全都执行,要么全都不执行
C(Consistency):一致性,是指事务在完成时,必须使所有的数据
都保持一致状态
I(Isolation):隔离性,是指由并发事务所做的修改必须与任何其它
并发事务所做的修改隔离
D(Durability):持久性,是指事务完成之后,它对于系统的影响是
永久性的,该修改即使出现致命的系统故障也将一直保持
1
2
3
4
5
6
7
8
BASE的基本含义是基本可用(Basically Availble)、软状态(Soft state)和最终一致性(Eventual consistency):
基本可用
基本可用,是指一个分布式系统的一部分发生问题变得不可用时,其他部分仍然可以正常使用,也就是允许分区失败的情形出现
软状态
“软状态(soft-state)”是与“硬状态(hard-state)”相对应的一种提法。数据库保存的数据是“硬状态”时,可以保证数据一致性,即保证数据一直是正确的。“软状态”是指状态可以有一段时间不同步,具有一定的滞后性
最终一致性
一致性的类型包括强一致性和弱一致性,二者的主要区别在于高并发的数据访问操作下,后续操作是否能够获取最新的数据。对于强一致性而言,当执行完一次更新操作后,后续的其他读操作就可以保证读到更新后的最新数据;反之,如果不能保证后续访问读到的都是更新后的最新数据,那么就是弱一致性。而最终一致性只不过是弱一致性的一种特例,允许后续的访问操作可以暂时读不到更新后的数据,但是经过一段时间之后,必须最终读到更新后的数据。
最常见的实现最终一致性的系统是DNS(域名系统)。一个域名更新操作根据配置的形式被分发出去,并结合有过期机制的缓存;最终所有的客户端可以看到最新的值。

最终一致性

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,
又可以区分为:
因果一致性:如果进程A通知进程B它已更新了一个数据项,那么进程B
的后续访问将获得A写入的最新值。而与进程A无因果关系的进程C的访问
,仍然遵守一般的最终一致性规则
“读己之所写”一致性:可以视为因果一致性的一个特例。当进程A自
己执行一个更新操作之后,它自己总是可以访问到更新过的值,绝不会看
到旧值
单调读一致性:如果进程已经看到过数据对象的某个值,那么任何后续
访问都不会返回在那个值之前的值
会话一致性:它把访问存储系统的进程放到会话(session)的上下文中
,只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失
败情形令会话终止,就要建立新的会话,而且系统保证不会延续到新的会

单调写一致性:系统保证来自同一个进程的写操作顺序执行。系统必须
保证这种程度的一致性,否则就非常难以编程了
1
2
3
4
5
6
7
8
如何实现各种类型的一致性?
对于分布式数据系统:
•N — 数据复制的份数
•W — 更新数据是需要保证写完成的节点数
•R — 读取数据的时候需要读取的节点数
如果W+R>N,写的节点和读的节点重叠,则是强一致性。例如对于典型的一主
一备同步复制的关系型数据库,N=2,W=2,R=1,则不管读的是主库还是备库的
数据,都是一致的。一般设定是R+W = N+1,这是保证强一致性的最小设定如果W+R<=N,则是弱一致性。例如对于一主一备异步复制的关系型数据库,N=2,W=1,R=1,则如果读的是备库,就可能无法读取主库已经更新过的数据,所以是弱一致性
1
2
3
4
5
6
7
8
9
10
11
12
对于分布式系统,为了保证高可用性,一般设置N>=3。不同的N,W,R组合,是
在可用性和一致性之间取一个平衡,以适应不同的应用场景。
•如果N=W,R=1,任何一个写节点失效,都会导致写失败,因此可用性会降低,
但是由于数据分布的N个节点是同步写入的,因此可 以保证强一致性。
实例:HBase是借助其底层的HDFS来实现其数据冗余备份的。HDFS采用的就
是强一致性保证。在数据没有完全同步到N个节点前,写操作是不会返回成功的
。也就是说它的W=N,而读操作只需要读到一个值即可,也就是说它R=1。
•像Voldemort,Cassandra和Riak这些类Dynamo的系统,通常都允许用户按需要设置N,R,W三个值,即使是设置成W+R<= N也是可以的。也就是说他允
许用户在强一致性和最终一致性之间自由选择。而在用户选择了最终一致性,或
者是W<N的强一致性时,则总会出现一段“各个节点数据不同步导致系统处理
不一致的时间”。为了提供最终一致性的支持,这些系统会提供一些工具来使数
据更新被最终同步到所有相关节点。

从NoSQL到NewSQL数据库

1
2
3
关系型数据库:适用事务型
非关系型数据库:适用互联网
newsql:适用数据分析
image-20230302151742886
1
newsql数据库同时具备关系型数据库和非关系型数据库的优点(事务和水平拓展)
image-20230302151829648

文档数据库MongoDB

文章标题(可选)

MongoDB简介

1
2
3
4
5
•MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据
库系统。
•在高负载的情况下,添加更多的节点,可以保证服务器性能。
•MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。
•MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组
image-20230302153655381

主要特点

1
2
3
4
5
6
7
8
•提供了一个面向文档存储,操作起来比较简单和容易
•可以设置任何属性的索引来实现更快的排序
•具有较好的水平可扩展性
•支持丰富的查询表达式,可轻易查询文档中内嵌的对象及数组
•可以实现替换完成的文档(数据)或者一些指定的数据字段
•MongoDB中的Map/Reduce主要是用来对数据进行批量处理和聚合操作
•支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等语言
•MongoDB安装简单

MongoDB概念解析

1
在mongodb中基本的概念是文档、集合、数据库
image-20230302153842093 image-20230302154010180
1
2
3
4
举例2:在一个关系型数据库中,一篇博客(包含文章内容、评论、评论的投票
)会被打散在多张数据表中。在文档数据库MongoDB中,能用一个文档来表示
一篇博客, 评论与投票作为文档数组,放在正文主文档中。这样数据更易于管
理,消除了传统关系型数据库中影响性能和水平扩展性的“JOIN”操作。

image-20230302154214533

1
关系数据库中的其中一条记录,在文档数据库MongoDB中的存储方式类似如下:
image-20230302154247610

数据库

1
2
3
•一个mongodb中可以建立多个数据库。
•MongoDB的默认数据库为"db",该数据库存储在data目录中。
•MongoDB的单个实例可以容纳多个独立的数据库,每一个都有自己的集合和权限,不同的数据库也放置在不同的文件中。

文档

1
2
文档是一个键值(key-value)对(即BSON)。MongoDB 的文档不需要设置相
同的字段,并且相同的字段不需要相同的数据类型,这与关系型数据库有很大的区别,也是 MongoDB 非常突出的特点。

image-20230302154657033

集合

1
2
3
4
5
•集合就是 MongoDB 文档组,类似于 RDBMS (关系数据库管理系统:
Relational Database Management System)中的表格。
•集合存在于数据库中,集合没有固定的结构,这意味着你在对集合可以插
入不同格式和类型的数据,但通常情况下我们插入集合的数据都会有一定的关联性。
比如,我们可以将以下不同数据结构的文档插入到集合中:

MongoDB 数据类型

image-20230302155125678

安装MongoDB

Window平台安装 MongoDB

1
2
3
4
MongoDB提供了可用于32位和64位系统的预编译二进制包,你可
以从MongoDB官网下载安装,MongoDB预编译二进制包下载地址
:http://www.mongodb.org/downloads
注意:在 MongoDB2.2 版本后已经不再支持 Windows XP 系统。

Linux平台安装MongoDB

1
2
3
4
MongoDB提供了linux平台上32位和64位的安装包,你可以在官网下载安装包。
下载地址:http://www.mongodb.org/downloads
启动 MongoDB服务
只需要在MongoDB安装目录的bin目录下执行'mongod'即可

访问MongoDB

使用 MongoDB shell访问MongoDB

1
2
3
4
mongodb://localhost
•使用 MongoDB shell 来连接 MongoDB 服务器
•使用用户名和密码连接登陆到指定数据库:
mongodb://admin:123456@localhost/test
MongoDB 创建数据库
1
2
3
4
MongoDB 创建数据库的语法格式如下:
use DATABASE_NAME
如果数据库不存在,则创建数据库,否则切换到指定数据库。
如果你想查看所有数据库,可以使用 show dbs 命令
创建集合
1
MongoDB没有单独创建集合名的shell命令,在插入数据的时候,MongoDB会自动创建对应的集合。
MongoDB 插入文档
1
2
3
4
5
文档的数据结构和JSON基本一样。
所有存储在集合中的数据都是BSON格式。
BSON是一种类JSON的一种二进制形式的存储格式,简称Binary JSON。
MongoDB 使用 insert() 或 save() 方法向集合中插入文档,语法如下:
db.COLLECTION_NAME.insert(document)
image-20230302155758827

使用Java程序访问 MongoDB

1
2
3
4
5
环境配置
•在Java程序中如果要使用MongoDB,需要确保已经安装了Java环境及MongoDB JDBC 驱动。
•首先必须下载mongo jar包,下载地址:
https://github.com/mongodb/mongo-java-driver/downloads, 请确保下载最新版本。
•需要将mongo.jar包含在你的 classpath 中
(1)连接数据库
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import com.mongodb.MongoClient;
……//这里省略其他需要导入的包
public class MongoDBJDBC{
public static void main( String args[] ){
try{
// 连接到 mongodb 服务
MongoClient mongoClient = new MongoClient( "localhost" , 27017 );
// 连接到数据库
DB db = mongoClient.getDB( "test" );
System.out.println("Connect to database successfully");
boolean auth = db.authenticate(myUserName, myPassword);
System.out.println("Authentication: "+auth);
}catch(Exception e){
System.err.println( e.getClass().getName() + ": " + e.getMessage() );
}
}
}
(2)创建集合
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
可以使用com.mongodb.DB类中的createCollection()来创建集合
public class MongoDBJDBC{
public static void main( String args[] ){
try{
// 连接到 mongodb 服务
MongoClient mongoClient = new MongoClient( "localhost" , 27017 );
// 连接到数据库
DB db = mongoClient.getDB( "test" );
System.out.println("Connect to database successfully");
boolean auth = db.authenticate(myUserName, myPassword);
System.out.println("Authentication: "+auth);
DBCollection coll = db.createCollection("mycol");
System.out.println("Collection created successfully");
}catch(Exception e){
System.err.println( e.getClass().getName() + ": " + e.getMessage() );
}
}
}
(3)插入文档
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
可以使用com.mongodb.DBCollection类的 insert() 方法来插入一个文档
public class MongoDBJDBC{
public static void main( String args[] ){
try{
// 连接到 mongodb 服务
MongoClient mongoClient = new MongoClient( "localhost" , 27017 );
// 连接到数据库
DB db = mongoClient.getDB( "test" );
System.out.println("Connect to database successfully");
boolean auth = db.authenticate(myUserName, myPassword);
System.out.println("Authentication: "+auth);
DBCollection coll = db.getCollection("mycol");
System.out.println("Collection mycol selected successfully");
BasicDBObject doc = new BasicDBObject("title", "MongoDB").
append("description", "database").
append("likes", 100).
append("url", "http://www.w3cschool.cc/mongodb/").
append("by", "w3cschool.cc");
coll.insert(doc);
System.out.println("Document inserted successfully");
}catch(Exception e){
System.err.println( e.getClass().getName() + ": " + e.getMessage() );

本文标题:林子雨 大数据技术原理与应用-第5章 NoSQL数据库

文章作者:TTYONG

发布时间:2023年02月28日 - 22:02

最后更新:2023年04月17日 - 12:04

原始链接:http://tianyong.fun/%E6%9E%97%E5%AD%90%E9%9B%A8-%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E5%8E%9F%E7%90%86%E4%B8%8E%E5%BA%94%E7%94%A8-%E7%AC%AC5%E7%AB%A0-NoSQL%E6%95%B0%E6%8D%AE%E5%BA%93.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%