TianYong's Blog

python爬虫-xhttp

发表于 2020-04-04 | 分类于 Python

字数统计: 190 | 阅读时长 ≈ 1

HTTP和POST测试 http://httpbin.org提供HTTP测试 http://httpbin.org/post提供POST测试 if isinstance(e.reason, socket.timeout)一个标准的url格式scheme://netloc/path;params?query#fragment //前面的就是scheme，代表协议；第一个/符号前面便是n e tlo c ,即域名，后面是 p a th ,即访问路径；分号;前面是param s,代表参数；问号?后面是查询条件query, 一般用作GET类型的URL；#后面是锚点，用于直接定位 ...

阅读全文 »

python爬虫-async

发表于 2020-04-04 | 分类于 Python

字数统计: 2.4k | 阅读时长 ≈ 9

python爬虫-async协程与任务协程1234567891011协程通过 async/await 语法进行声明，是编写 asyncio 应用的推荐方式>>> import asyncio>>> async def main():... print('hello')... await asyncio.sleep(1)... print('world')>>> asyncio.run(main())helloworld 123注意：简单地调用一个协程并不会使其被调度执行>>> main() ...

阅读全文 »

python爬虫-提高爬虫效率

发表于 2020-04-04 | 分类于 Python

字数统计: 4k | 阅读时长 ≈ 16

python爬虫-提高爬虫效率httpx1比 requests 更强大 Python 库，让你的爬虫效率提高一倍什么是协程？1简单来说，协程是一种基于线程之上，但又比线程更加轻量级的存在。对于系统内核来说，协程具有不可见的特性，所以这种由程序员自己写程序来管理的轻量级线程又常被称作 "用户空间线程" 协程比多线程好在哪呢？1231. 线程的控制权在操作系统手中，而协程的控制权完全掌握在用户自己手中，因此利用协程可以减少程序运行时的上下文切换，有效提高程序运行效率。2. 建立线程时，系统默认分配给线程的栈大小是 1 M，而协程更轻量，接近 1 K 。因此 ...

阅读全文 »

python的HTTP请求库-Urllib

发表于 2020-04-04 | 分类于 Python

字数统计: 3.7k | 阅读时长 ≈ 15

使用urrlibUrllib官方文档是python的内置的HTTP请求库 python3不存在urllib2的说法，统一为urllib* 包括如下四个模块： request 它是最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入U R L 以及额外的参数，就可以模拟实现这个过程了 error 异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止 parse 一个工具模块，提供了许多URL处理方法，比如拆分、解析、合并等 robotparser 主要是用来识别网站的r ...

阅读全文 »

hexo文章内引用自己的文章

发表于 2020-04-02 | 分类于 Hexo

字数统计: 19 | 阅读时长 ≈ 1

1{% post_link 文章文件名（不要后缀）文章标题（可选） %}

阅读全文 »

hadoop理论课-第三章HDFS

发表于 2020-04-02 | 分类于 Hadoop大数据技术

字数统计: 1.5k | 阅读时长 ≈ 5

第三章HDFSHDFS简介HDFS是Google公司的GFS分布式文件系统的开源实现 HDFS是Apache Hadoop项目的一个子项目支持海量数据存储，成百上千的计算机组成存储集群 HDFS可以在低成本的硬件之上，具有高容错，高可靠性，高扩展，高吞吐率等特征非常适合大规模数据集的应用 HDFS的生态圈 HDFS优点高容错性数据自动保存多个副本副本丢失后，自动恢复适合批处理移动计算而非移动数据移动位置暴露给计算框架适合大数据处理GB, TB, 甚至PB级数据百万规模以上的文件数量 10k+节点支持流式文件访问一次写入，多次读取保证数据一致性可构建在廉价机器上通 ...

阅读全文 »

数据库系统-数据定义

发表于 2020-04-01 | 分类于数据库系统

字数统计: 891 | 阅读时长 ≈ 3

关系数据库标准语言SQLSQL概述SQL的产生与发展SQ L 是在 1974年由 Boyce和 Chamberlin提出的，最初叫 S e q u e l 1987 年，国际标准化组织 (International Organization for Standardization, I S O ) 也通过了这一标准. 同时，许多软件厂商对SQ L基本命令集还进行了不同程度的扩充和修改，又可以支持标准以外的一些功能特性目前，没有一个数据库系统能够支持SQ L标准的所有概念和特性 SQL的特点SQ L集数据查询(data query) ，数据操纵 (data manipulati ...

阅读全文 »

数据库系统-数据查询

发表于 2020-04-01 | 分类于数据库系统

字数统计: 2.9k | 阅读时长 ≈ 11

数据查询单表查询选择表中若干列指定列 12SELECT sno,snameFROM Student; 全部列12SELECT * FROM Student; 查询计算过得值123SELECT子句的＜目标列表达式〉不仅可以是表中的属性列，也可以是表达式SELECT Sname, 2014-SageFROM Student; 目标表达水不仅可以是算数表达式，也可以是字符串常量，函数等修改查询列标题用户可以通过指定别名来改变查询结果的列标题，这对于含算术表达式、常量、函数名的目标列表达式尤为有用 1SELECT Sname [AS] newName 选择表中的若干元组系 ...

阅读全文 »

数据库系统-数据定义

发表于 2020-04-01 | 分类于数据库系统

字数统计: 3k | 阅读时长 ≈ 10

数据定义(CREAT, DROP, ALTER)关系数据库系统支持三级模式结构，其模式、外模式和内模式中的基本对象有模式、表、视图和索引等。因此 SQL 的数据定义功能包括模式定义、表定义、视图和索引的定义。不支持模式修改，视图修改；只有重新删除创建标准的SQL也不支持索引创建，商用关系数据库提供索引机制和相关语句一个关系数据库管理系统的实例（instance）中可以建立多个数据库，一个数据库中可以建立多个模式，一个模式下通常包括多个表、视图和索引等数据库对象模式定义与删除模式定义CREATE SCHEMA＜模式名＞AUTHORIZATION ＜用户名 > 如 ...

阅读全文 »

Hadoop理论课-第四章

发表于 2020-03-30 | 分类于 Hadoop大数据技术

字数统计: 1.3k | 阅读时长 ≈ 4

第四章 YARNYARN 简介是针对MapReduce1 的缺点开发的 123设计 YARN 的最初目的是改善 MapReduce 的实现。后来 YARN 演变为一种资源调度框架，具有通用性，可为上层应用提供统一的资源管理和调度，可以支持其他的分布式计算模式（如Spark）。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 MapReduce1工作流程 MapReduce1 当任务过多时，不利于系统扩展；难以支持其他的框架；JobTracker单点故障 1234567891011MapReduce 1 的具体工作过程可描述如下。（1）一个客户端向一个 Had ...

阅读全文 »