TianYong's Blog

崔庆才python3爬虫验证码的识别

发表于 2020-06-07 | 分类于 Python

字数统计: 6 | 阅读时长 ≈ 1

验证码的识别

python解析库-bs4

发表于 2020-06-07 | 分类于 Python

字数统计: 345 | 阅读时长 ≈ 1

Beautiful Soup库具有解析，遍历，维护“标签树”的功能的功能库 123from bs4 import BeautifulSoupdemo = r.textsoup = BeautifulSoup(demo, 'html.parser') # 解析器可以是其它的五种基本元素tag, name, attributes, navigableString, comment 1234tag.标签名 # 得到标签tag.name # 得到标签名tag.attrs # 得到标签属性comment # 标签内的字符串，注释部分，一种特殊的comment类型非find的常用方法12 ...

阅读全文 »

崔庆才python3爬虫-代理的使用

发表于 2020-06-07 | 分类于 Python

字数统计: 3.2k | 阅读时长 ≈ 11

代理的使用代理的设置获取代理12345做测试之前，我们需要先获取一个可用代理。搜索引擎搜索“代理”关键字，就可以看到许多代理服务网站，网站上会有很多免费代理，比如西刺： http://www.xicidaili.eom/o但是这些免费代理大多数情况下都是不好用的，所以比较靠谱的方法是购买付费代理。付费代理在很多网站上都有售卖，数量不用多，稳定可用即可，我们可以自行选购。如果本机有相关代理软件的话，软件一般会在本机创建HTTP或 SOCKS代理服务，本机直接使用此代理也可以。在这里，我的本机安装了一部代理软件，它会在本地9743端口上创建HTTP代理服务，即代理 123为 127.0.0 ...

阅读全文 »

崔庆才python3爬虫动态渲染页面爬取-Selenium

发表于 2020-06-07 | 分类于 Python

字数统计: 5.4k | 阅读时长 ≈ 21

动态渲染页面爬取-Selenium1在前一章中，我们了解了Ajax的分析和抓取方式，这其实也是JavaScript动态渲染的页面的一种情形，通过直接分析Ajax, 我们仍然可以借助requests或urllib来实现数据爬取。 123 不过JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的，并非原始HTML代码，这其中并不包含Ajax请求。比如ECharts的官方实例(详见http://echarts.baidu.eom/demo.html#bar-negative) ...

阅读全文 »

崔庆才python3爬虫动态渲染页面爬取-Splash

发表于 2020-06-07 | 分类于 Python

字数统计: 7k | 阅读时长 ≈ 30

动态渲染页面爬取-Splash1Splash是一个JavaScript渲染服务，是一个带有HTTPAPI的轻量级浏览器，同时它对接了Python中的Twisted和 Q T 库。利用它，我们同样可以实现动态渲染页面的抓取。 Splash启动命令1docker run -p 8050:8050 scrapinghub/splash 功能介绍1234567利用Splash,我们可以实现如下功能：□ 异步方式处理多个网页渲染过程；□ 获取渲染后的页面的源代码或截图；□ 通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度；□ 可执行特定的JavaScript脚本；□ 可通过Lua脚 ...

阅读全文 »

python库-操作Excel

发表于 2020-06-07 | 分类于 Python

字数统计: 192 | 阅读时长 ≈ 1

python库-操作Excelopenpyxl库三个基本概念：workbooks(工作簿)，sheets(表), cells(单元格) 不支持打开xls格式的EXECL文件打开EXCEL1234567891011121314from openpyxl import WorkBookfrom openpyxl import load_workbookwb = load_workbook('路径.xlsx') # 得到workbook对象sheetnames = wb.sheetnames # 得到workbook里面的表名ws = wb[sheetnames[index]] # 得到s ...

阅读全文 »

hadoop启动后jps没有namenode

发表于 2020-06-04 | 分类于 Hadoop ， Hadoop大数据技术

字数统计: 10 | 阅读时长 ≈ 1

hadoop启动后jps没有namenode解决链接

阅读全文 »

数据库系统-SQL_Server

发表于 2020-06-04 | 分类于数据库系统

字数统计: 178 | 阅读时长 ≈ 1

SQL Serverhttps://www.51zxw.net/List.aspx?cid=492 SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点，可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的服务器等多种平台使用。启动SQL Server服务1.在控制面板服务中启动 2.开始中找到sql的服务配置文件 3.cmd命令启动 net start /stop mssqlserver SQL Server身份验证1.loc ...

阅读全文 »

虚拟机无法联网

发表于 2020-06-03 | 分类于虚拟机

字数统计: 14 | 阅读时长 ≈ 1

虚拟机无法联网解决方案链接 url2

阅读全文 »

Hadoop大数据技术-第八章

发表于 2020-06-02 | 分类于 Hadoop ， Hadoop大数据技术

字数统计: 228 | 阅读时长 ≈ 1

SqoopSqoop简介Sqoop是一个在关系型数据库与Hadoop数据存储和处理平台进行数据导入\导出的工具 Sqoop脚本最终会转换为mapreduce程序 Sqoop基本原理有sqoop1和sqoop2；sqoop1更加稳定 Sqoop1使用Sqoop客户端直接提交任务，通过CLI控制台或API方式访问数据时，在命令或脚本中需要指定用户数据库名及密码 import原理：从传统数据库获取元数据信息，把导入功能转换为只有Map的MapReduce作业，在map中有很多Map，每个Map读取一片数据，进而并行地复制到HDFS,HBSE或HIVE中的数据导入到关系型数据库 Export ...

阅读全文 »