TianYong's Blog

林子雨大数据技术原理与应用-第10章数据可视化

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 0 | 阅读时长 ≈ 1

林子雨大数据技术原理与应用-第9章图计算

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 8.1k | 阅读时长 ≈ 28

第9章图计算图计算简介图结构数据12345•许多大数据都是以大规模图或网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响•许多非图结构的大数据，也常常会被转换为图模型后进行分析•图数据结构很好地表达了数据之间的关联性•关联性计算是大数据计算的核心——通过获得数据的关联性，可以从噪音很多的海量数据中抽取有用的信息–比如，通过为购物者之间的关系建模，就能很快找到口味相似的用户，并为之推荐商品–或者在社交网络中，通过传播关系发现意见领袖传统图计算解决方案的不足之处1234很多传统的图计算算法都存在以下几个典型问题：（1）常常表现出比较差的内存访问局部性（2）针对单个顶点 ...

阅读全文 »

林子雨大数据技术原理与应用-第8章流计算

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 5.5k | 阅读时长 ≈ 19

第8章流计算流计算概述静态数据和流数据1很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP（OnLine Analytical Processing）分析工具从静态数据中找到对企业有价值的信息 1234567• 近年来，在Web应用、网络监控、传感监测等领域，兴起了一种新的数据密集型应用——流数据，即数据以大量、快速、时变的流形式持续到达• 流数据具有如下特征：– 数据快速持续到达，潜在大小也许是无穷无尽的– 数据来源众多，格式复杂– 数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储– 注重 ...

阅读全文 »

林子雨大数据技术原理与应用-第7章 mapreduce

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 3k | 阅读时长 ≈ 12

第7章 mapreduce概述分布式并行编程1234•“摩尔定律”， CPU性能大约每隔18个月翻一番•从2005年开始摩尔定律逐渐失效(大数据摩尔定律：每年按50%增长) ，需要处理的数据量快速增加，人们开始借助于分布式并行编程来提高程序性能•分布式程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量的计算能力•谷歌公司最先提出了分布式并行编程模型MapReduce，Hadoop MapReduce是它的开源实现，后者比前者使用门槛低很多 1问题：在MapReduce出现之前，已经有像MPI这样非常成熟的并行计算框架了，那么为什么Google还需要MapRe ...

阅读全文 »

林子雨大数据技术原理与应用-第6章云数据库

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 4.4k | 阅读时长 ≈ 15

第6章云数据库云数据库概述云计算是云数据库兴起的基础云数据库概念 1云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。云数据库的特性1234567（1）动态可扩展（2）高可用性（3）较低的使用代价（4）易用性（5）高性能（6）免维护（7）安全云数据库是个性化数据存储需求的理想选择12345678企业类型不同，对于存储的需求也千差万别，而云数 ...

阅读全文 »

林子雨大数据技术原理与应用-第5章 NoSQL数据库

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 5.2k | 阅读时长 ≈ 19

第5章 NoSQL数据库NoSQL简介 1234通常，NoSQL数据库具有以下几个特点：（1）灵活的可扩展性（2）灵活的数据模型（3）与云计算紧密融合 NoSQL兴起的原因1234关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面：（1）无法满足海量数据的管理需求（2）无法满足数据高并发的需求（3）无法满足高可扩展性和高可用性的需求 123456（主从机制实现读写负载分离，同步或异步传输）--到--->分库分表MySQL集群是否可以完全解决问题？•复杂性：部署、管理、配置很复杂•数据库复制：MySQL主备之间采用复制方式，只能是异步复制，当主库压力较大时可能产 ...

阅读全文 »

林子雨大数据技术原理与应用-第四章分布式数据库HBase

发表于 2023-02-28 | 分类于大数据技术原理与应用

字数统计: 6.3k | 阅读时长 ≈ 23

第四章分布式数据库HBase概述从BigTable说起12BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题 1234567•建立互联网索引1 爬虫持续不断地抓取新页面，这些页面每页一行地存储到BigTable里2 MapReduce计算作业运行在整张表上，生成索引，为网络搜索应用做准备•搜索互联网3 用户发起网络搜索请求4 网络搜索应用查询建立好的索引，从BigTable得到网页5 搜索结果提交给用户 123456•BigTable是一个分布式存储系统•利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据•使用谷歌分布式文件系统 ...

阅读全文 »

林子雨大数据技术原理与应用-第三章分布式文件系统HDFS

发表于 2023-02-25 | 分类于大数据技术原理与应用

字数统计: 6.8k | 阅读时长 ≈ 26

第三章分布式文件系统HDFS分布式文件系统计算机集群结构12•分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群•与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销分布式文件系统的结构1分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode) HDFS ...

阅读全文 »

林子雨大数据技术原理与应用-第二章大数据处理框架Hadoop

发表于 2023-02-24 | 分类于大数据技术原理与应用

字数统计: 9k | 阅读时长 ≈ 35

第二章大数据处理框架Hadoop1234主页：http://www.cs.xmu.edu.cn/linziyu欢迎访问《大数据技术原理与应用》教材官方网站：http://dblab.xmu.edu.cn/post/bigdata 概述Hadoop简介12345• Hadoop是Apache软件基金会旗下的一个开源分布式计算平台•Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中•Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed Fil ...

阅读全文 »

比你优秀的人都努力，有什么理由不努力！

林子雨大数据技术原理与应用-第11章大数据在互联网中的应用

林子雨大数据技术原理与应用-第10章数据可视化

林子雨大数据技术原理与应用-第9章图计算

林子雨大数据技术原理与应用-第8章流计算

林子雨大数据技术原理与应用-第7章 mapreduce

林子雨大数据技术原理与应用-第6章云数据库

林子雨大数据技术原理与应用-第5章 NoSQL数据库

林子雨大数据技术原理与应用-第四章分布式数据库HBase

林子雨大数据技术原理与应用-第三章分布式文件系统HDFS

林子雨大数据技术原理与应用-第二章大数据处理框架Hadoop