TianYong's Blog

崔庆才python3爬虫-13章 Scrapy框架的使用-Spider对接Splash

发表于 2020-03-22 | 分类于 Python

字数统计: 1.6k | 阅读时长 ≈ 6

崔庆才python3爬虫-13章 Scrapy框架的使用-Spider对接Splash1在上一节我们实现了 Scrapy对接 Selenium抓取淘宝商品的过程，这是一种抓取JavaScript动态渲染页面的方式。除了 Selenium, Splash也可以实现同样的功能。本节我们来了解Scrapy对接Splash来进行页面抓取的方式。准备工作1请确保 Splash已经正确安装并正常运行，同时安装好Scrapy-Splash库，如果没有安装可以参考第1章的安装说明。创建项目12345首先新建一个项目，名为 scrapysplashtest,命令如下所示:scrapy sta ...

阅读全文 »

崔庆才python3爬虫-13章 Scrapy框架的使用

发表于 2020-03-22 | 分类于 Python

字数统计: 4.6k | 阅读时长 ≈ 17

崔庆才python3爬虫-13章 Scrapy框架的使用Scrapy框架介绍1. 架构介绍1Scrapy是一个基于Twisted的异步处理框架，是纯 Python实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 123456789它可以分为如下的几个部分。□ Engine。引擎，处理整个系统的数据流处理、触发事务，是整个框架的核心。□ Item。项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该Item 对象。□ Scheduler。调度器，接受引擎发过来的请求并将其加入队列中，在引擎再次 ...

阅读全文 »

崔庆才python3爬虫-13章 Scrapy框架的使用-Spider Middleware的用法

发表于 2020-03-22 | 分类于 Python

字数统计: 4k | 阅读时长 ≈ 15

崔庆才python3爬虫-13章 Scrapy框架的使用-Spider Middleware的用法和Item PipelineSpider Middleware的用法 12345678Spider Middleware是介入到Scrapy的 Spider处理机制的钩子框架。我们首先来看看它的架构，如图13-1所示。当Downloader生成Response之后，Response会被发送给Spider,在发送给Spider之前，Response会首先经过Spider Middleware处理，当 Spider处理生成Item和Request之后, Item和 Request还会经过Spid ...

阅读全文 »

崔庆才python3爬虫-13章 Scrapy框架的使用-Selector的使用

发表于 2020-03-22 | 分类于 Python

字数统计: 4.1k | 阅读时长 ≈ 18

崔庆才python3爬虫-13章 Scrapy框架的使用-Selector的使用1我们之前介绍了利用Beautiful Soup, pyquery以及正则表达式来提取网页数据，这确实非常方便,而 Scrapy还提供了自己的数据提取方法，即 Selector ( 选择器)。 Selector是基于lxml来构建的，支持XPath选择器、CSS选择器以及正则表达式，功能全面，解析速度和准确度非常高直接使用1234567Selector个可以独立使用的模块。我们可以直接利用S elector这个类来构建一个选择器对象,然后调用它的相关方法如xpath()、css()等来提取数据。例如，针对 ...

阅读全文 »

崔庆才python3爬虫-13章 Scrapy框架的使用-Spider的用法

发表于 2020-03-22 | 分类于 Python

字数统计: 4.8k | 阅读时长 ≈ 19

崔庆才python3爬虫-13章 Scrapy框架的使用-Spider的用法和Downloader Middleware 的用法1在 Scrapy中，要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是在Spider中配置的。在前一节实例中，我们发现抓取逻辑也是在Spider中完成的。本节我们就来专门了解一下Spider的基本用法。 Spider的用法Spider运行流程12345678在实现Scrapy爬虫项目时，最核心的类便是Spider类了，它定义了如何爬取某个网站的流程和解析方式。简单来讲， Spider要做的事就是如下两件：□ 定义爬取网站的动作；□ 分析爬取下来的网页。对 ...

阅读全文 »

崔庆才python3爬虫-13章 Scrapy框架的使用-Scrapy通用爬虫

发表于 2020-03-22 | 分类于 Python

字数统计: 6k | 阅读时长 ≈ 27

Scrapy框架的使用-Scrapy通用爬虫CrawlSpider123在实现通用爬虫之前，我们需要先了解一下 CrawlSpider, 其官方文档链接为： http://scrapy.readthedocs.io/en/latest/topics/spiders.html#crawlspiderCrawlSpider是Scrapy提供的一个通用Spider。在 Spider里，我们可以指定一些爬取规则来实现页面的提取，这些爬取规则由一个专门的数据结构Rule表示。 Rule里包含提取和跟进页面的配置，Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果 ...

阅读全文 »

廖雪峰java教程笔记-快速入门

发表于 2020-03-22 | 分类于廖雪峰java笔记

字数统计: 1.2k | 阅读时长 ≈ 4

java简介java最早由sun公司的詹姆斯.高斯林开发编写最初名为oak，后来发现这是一门已有的计算机语言，所以改名java java是*一门介于解释和编译型的语言*** C，C++,代码直接编译成机械码，由cpu执行，但由于不同平台的中央处理器的CPU的指令集不同，因此，需要编译出每一种平台的机器码。 Python,Ruby没有上述问题，直接由解释器加载源码然后运行，但运行*效率太低*** java是由编译器生成一种独立的字节码，然后针对不同平台开发不同的虚拟机，就可以实现一次编写，到处运行不同厂商都可以编写自己的虚拟机，为了保证字节码能够正确运行，就需要制定一系列的虚拟机 ...

阅读全文 »

发表于 2020-03-20 | 分类于 Hexo

字数统计: 25 | 阅读时长 ≈ 1

hexo上一页和下一页乱码在themes\next\layout_partials\中，更改pagination.swig文件如下：更改为：

阅读全文 »

SEO开启推送

发表于 2020-03-20 | 分类于 Hexo

字数统计: 236 | 阅读时长 ≈ 1

开启推送网址递交将网站链接提交到百度，百度搜索引擎提交入口 ,然后验证你的网站，这一点网上有很详细的教程我就不复述了，验证确认你的网站后，继续验证你的网站的robots.txt和sitemap文件是否可用，一般都是可用的。自动推送把下面的代码放到D:\lang_blog\themes\next\source\js\src目录下，文件名为bai.js 1234567(function(){ var bp = document.createElement('script'); bp.src = '//push ...

阅读全文 »

hexo的seo优化之开启压缩文件

发表于 2020-03-20 | 分类于 Hexo

字数统计: 669 | 阅读时长 ≈ 3

开启压缩文件因为hexo生成的文件是静态html，里面占用了大量的空白符。使用gulp进行压缩接口提高访问速度并且降低内存。在根目录下打开git bash输入如下命令: 1234npm install gulp -gnpm install gulp-minify-css gulp-uglify gulp-htmlmin gulp-htmlclean gulp --savenpm install gulp-concatnpm install gulp-imagemin 在根目录下创建gulpfile.js，内容如下: 123456789101112131415161718192021222 ...

阅读全文 »