python解析库-bs4
Beautiful Soup库具有解析,遍历,维护“标签树”的功能的功能库
123from bs4 import BeautifulSoupdemo = r.textsoup = BeautifulSoup(demo, 'html.parser') # 解析器可以是其它的
五种基本元素tag, name, attributes, navigableString, comment
1234tag.标签名 # 得到标签tag.name # 得到标签名tag.attrs # 得到标签属性comment # 标签内的字符串,注释部分,一种特殊的comment类型
非find的常用方法12
...
崔庆才python3爬虫-代理的使用
代理的使用代理的设置获取代理12345做测试之前,我们需要先获取一个可用代理。搜索引擎搜索“代理”关键字,就可以看到许多代理服务网站,网站上会有很多免费代理,比如西刺: http://www.xicidaili.eom/o但是这些免费代理大多数情况下都是不好用的,所以比较靠谱的方法是购买付费代理。付费代理在很多网站上都有售卖,数量不用多,稳定可用即可,我们可以自行选购。如果本机有相关代理软件的话,软件一般会在本机创建HTTP或 SOCKS代理服务,本机直接使用此代理也可以。在这里,我的本机安装了一部代理软件,它会在本地9743端口上创建HTTP代理服务,即代理
123为 127.0.0
...
崔庆才python3爬虫 动态渲染页面爬取-Selenium
动态渲染页面爬取-Selenium1在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax, 我们仍然可以借助requests或urllib来实现数据爬取。
123 不过JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。比如ECharts的官方实例(详见http://echarts.baidu.eom/demo.html#bar-negative)
...
崔庆才python3爬虫 动态渲染页面爬取-Splash
动态渲染页面爬取-Splash1Splash是一个JavaScript渲染服务,是一个带有HTTPAPI的轻量级浏览器,同时它对接了Python中的Twisted和 Q T 库。利用它,我们同样可以实现动态渲染页面的抓取。
Splash启动命令1docker run -p 8050:8050 scrapinghub/splash
功能介绍1234567利用Splash,我们可以实现如下功能:□ 异步方式处理多个网页渲染过程;□ 获取渲染后的页面的源代码或截图;□ 通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度;□ 可执行特定的JavaScript脚本;□ 可通过Lua脚
...
python库-操作Excel
python库-操作Excelopenpyxl库三个基本概念:workbooks(工作簿),sheets(表), cells(单元格)
不支持打开xls格式的EXECL文件
打开EXCEL1234567891011121314from openpyxl import WorkBookfrom openpyxl import load_workbookwb = load_workbook('路径.xlsx') # 得到workbook对象sheetnames = wb.sheetnames # 得到workbook里面的表名ws = wb[sheetnames[index]] # 得到s
...
数据库系统-SQL_Server
SQL Serverhttps://www.51zxw.net/List.aspx?cid=492
SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点,可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的服务器等多种平台使用。
启动SQL Server服务1.在控制面板服务中启动
2.开始中找到sql的服务配置文件
3.cmd命令启动 net start /stop mssqlserver
SQL Server身份验证1.loc
...
Hadoop大数据技术-第八章
SqoopSqoop简介Sqoop是一个在关系型数据库与Hadoop数据存储和处理平台进行数据导入\导出的工具
Sqoop脚本最终会转换为mapreduce程序
Sqoop基本原理有sqoop1和sqoop2;sqoop1更加稳定
Sqoop1使用Sqoop客户端直接提交任务,通过CLI控制台或API方式访问数据时,在命令或脚本中需要指定用户数据库名及密码
import原理:从传统数据库获取元数据信息,把导入功能转换为只有Map的MapReduce作业,在map中有很多Map,每个Map读取一片数据,进而并行地复制到HDFS,HBSE或HIVE中的数据导入到关系型数据库
Export
...