TianYong's Blog

从零开始学大数据-02 大数据应用发展史: 从搜索引擎到人工智能

发表于 2022-01-12 | 分类于从零开始学大数据，大数据

字数统计: 2.3k | 阅读时长 ≈ 7

02 大数据应用发展史: 从搜索引擎到人工智能大数据应用的搜索引擎时代1Google公认的大数据鼻祖，存储着全世界大量的网页，大约需要数万块磁盘---->GFS，将数千台服务器上的数万块磁盘统一管理起来，然后当作一个文件系统，统一存储所有这些网页文件。---->构建搜索引擎，需要对这数万块磁盘上的文件中的单词进行词频统计，然后根据PageRank算法计算网页排名。这中间Google需要对磁盘上的文件进行计算处理---->MapReduce大数据计算框架应运而生 1Google之前，世界闻名的搜索引擎是yahoo。Google凭借自己的大数据技术和pagerank算法， ...

阅读全文 »

从零开始学大数据-01 大数据的前世今生

发表于 2022-01-12 | 分类于从零开始学大数据，大数据

字数统计: 1.2k | 阅读时长 ≈ 4

大数据的前世今生1大多数公司还专注于提升单机性能，寻找更贵更好的服务器，google的思路是部署一个大规模服务器集群，通过分布式的方式将海量数据存储在这个集群上，然后利用集群上所有服务器进行数据计算。这样不需要昂贵的服务器，却可以更好实现目的 123lucene:全文检索引擎工具包nutch:开源搜索引擎Doug Cutting:lucene的创始人，nutch的开发者，hadoop之父 12004前后google三篇论文(三驾马车: 分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable)——————>doug cutting实 ...

阅读全文 »

pandas-基础操作

发表于 2021-05-27

字数统计: 218 | 阅读时长 ≈ 1

DataFrame基础操作创建DataFrame列表1df = pd.DataFrame([1,3,4,5],index=[5,8,1,4],columns=['a']) 多维列表1df1=pd.DataFrame([[1,2,3],[None,None,2],[None,None,None],[8,8,None]]) 字典1df2=pd.DataFrame({'b':[4,7,-3,2],'a':[0,1,0,1]}) numpy1df4=pd.DataFrame(np.arange(9).reshape(3,3),index=['a','c',' ...

阅读全文 »

python廖雪峰-基础

发表于 2021-04-15 | 分类于 Python

字数统计: 2.1k | 阅读时长 ≈ 8

python基础数据类型和变量数据类型整型Python可以处理任意大小的整数，当然包括负整数计算机由于使用二进制，所以，有时候用十六进制表示整数比较方便，十六进制用0x前缀和0-9，a-f表示，例如：0xff00，0xa5b4c3d2，等等对于很大的数，例如10000000000，很难数清楚0的个数。Python允许在数字中间以_分隔，因此，写成10_000_000_000和10000000000是完全一样的。十六进制数也可以写成0xa1b2_c3d4 浮点型Python的浮点数也没有大小限制，但是超出一定范围就直接表示为inf（无限大）之所以称为浮点数，是因为按照科学记数法表 ...

阅读全文 »

python廖雪峰-IO编程

发表于 2021-04-15 | 分类于 Python

字数统计: 1.4k | 阅读时长 ≈ 5

IO编程文件读写123读写文件是最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。读写文件前，我们先必须了解一下，在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，所以，读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）读文件try….finally方式12要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符f = open('/Users/michael/test.txt ...

阅读全文 »

python廖雪峰-简介

发表于 2021-04-15 | 分类于 Python

字数统计: 0 | 阅读时长 ≈ 1

阅读全文 »

python廖雪峰-异步IO

发表于 2021-04-15 | 分类于 Python

字数统计: 1.9k | 阅读时长 ≈ 7

异步IO协程1234567在学习异步IO模型前，我们先来了解协程。协程，又称微线程，纤程。英文名Coroutine。协程的概念很早就提出来了，但直到最近几年才在某些语言（如Lua）中得到广泛应用。子程序，或者称为函数，在所有语言中都是层级调用，比如A调用B，B在执行过程中又调用了C，C执行完毕返回，B执行完毕返回，最后是A执行完毕。所以子程序调用是通过栈实现的，一个线程就是执行一个子程序。子程序调用总是一个入口，一次返回，调用顺序是明确的。而协程的调用和子程序不同。协程看上去也是子程序，但执行过程中，在子程序内部可中断，然后转而执行别的子程序，在适当的时候再返回来接着执行。 123 ...

阅读全文 »

jsDeliver+github打造属于自己的图床

发表于 2021-01-21 | 分类于 hexo

字数统计: 710 | 阅读时长 ≈ 2

图床什么是图床“图床一般是指储存图片的服务器，有国内和国外之分。国外的图床由于有空间距离等因素决定访问速度很慢影响图片显示速度。国内也分为单线空间、多线空间和cdn加速三种。”注意：github 支持的就是cdn加速 jsDeliver+github打造属于自己的图床参考链接什么是jsDelivejsDelivr 是一个免费开源的 CDN 解决方案，用于帮助开发者和站长。包含 JavaScript 库、jQuery 插件、CSS 框架、字体等等 Web 上常用的静态资源。 jsDelive加载资源1234567891011https://cdn.jsdelivr.n ...

阅读全文 »

hexo-美化

发表于 2021-01-20

字数统计: 74 | 阅读时长 ≈ 1

hexo-美化透明度透明度设置个性化回到首页个性化回到首页打字点击特效打字点击特效卡通人物个性化回到首页随机彩带随机彩带动态彩带页面加载进度条页面加载进度条 ##

阅读全文 »

大数据开发工程师-第一周第一章

发表于 2021-01-20 | 分类于大数据开发工程师，大数据

字数统计: 509 | 阅读时长 ≈ 1

第一周-第一章群里问答12即系查询框架哪个用的多? impala，Elasticsearch、Druid、Presto、ClickHouse等都可以 12你们写好的SparkStreaming测试是怎么测试?在本地测试还是扔到Yarn测试? 一般是在测试环境里面测 12先IDEA 本地跑一下自测,然后放到测试环境的HDFS上让yarn调度一下么? 是的，在本地验证代码的正确性，在测试集群中验证代码业务流程层面的正确性 1234对实时计算所涉及的事务、容错性、可靠性有深入的理解这种问题，面试的时候一般怎么回答？分析下一下实时计算中的几种语义级别，能讲清楚就差不多了 12 ...

阅读全文 »