TianYong's Blog

比你优秀的人都努力,有什么理由不努力!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 搜索

崔庆才python3爬虫 验证码的识别

发表于 2020-06-07 | 分类于 Python
字数统计: 6 | 阅读时长 ≈ 1
验证码的识别
阅读全文 »

python解析库-bs4

发表于 2020-06-07 | 分类于 Python
字数统计: 345 | 阅读时长 ≈ 1
Beautiful Soup库具有解析,遍历,维护“标签树”的功能的功能库 123from bs4 import BeautifulSoupdemo = r.textsoup = BeautifulSoup(demo, 'html.parser') # 解析器可以是其它的 五种基本元素tag, name, attributes, navigableString, comment 1234tag.标签名 # 得到标签tag.name # 得到标签名tag.attrs # 得到标签属性comment # 标签内的字符串,注释部分,一种特殊的comment类型 非find的常用方法12 ...
阅读全文 »

崔庆才python3爬虫-代理的使用

发表于 2020-06-07 | 分类于 Python
字数统计: 3.2k | 阅读时长 ≈ 11
代理的使用代理的设置获取代理12345做测试之前,我们需要先获取一个可用代理。搜索引擎搜索“代理”关键字,就可以看到许多代理服务网站,网站上会有很多免费代理,比如西刺: http://www.xicidaili.eom/o但是这些免费代理大多数情况下都是不好用的,所以比较靠谱的方法是购买付费代理。付费代理在很多网站上都有售卖,数量不用多,稳定可用即可,我们可以自行选购。如果本机有相关代理软件的话,软件一般会在本机创建HTTP或 SOCKS代理服务,本机直接使用此代理也可以。在这里,我的本机安装了一部代理软件,它会在本地9743端口上创建HTTP代理服务,即代理 123为 127.0.0 ...
阅读全文 »

崔庆才python3爬虫 动态渲染页面爬取-Selenium

发表于 2020-06-07 | 分类于 Python
字数统计: 5.4k | 阅读时长 ≈ 21
动态渲染页面爬取-Selenium1在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax, 我们仍然可以借助requests或urllib来实现数据爬取。 123 不过JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网(详见http://news.youth.cn/gn/),它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。比如ECharts的官方实例(详见http://echarts.baidu.eom/demo.html#bar-negative) ...
阅读全文 »

崔庆才python3爬虫 动态渲染页面爬取-Splash

发表于 2020-06-07 | 分类于 Python
字数统计: 7k | 阅读时长 ≈ 30
动态渲染页面爬取-Splash1Splash是一个JavaScript渲染服务,是一个带有HTTPAPI的轻量级浏览器,同时它对接了Python中的Twisted和 Q T 库。利用它,我们同样可以实现动态渲染页面的抓取。 Splash启动命令1docker run -p 8050:8050 scrapinghub/splash 功能介绍1234567利用Splash,我们可以实现如下功能:□ 异步方式处理多个网页渲染过程;□ 获取渲染后的页面的源代码或截图;□ 通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度;□ 可执行特定的JavaScript脚本;□ 可通过Lua脚 ...
阅读全文 »

python库-操作Excel

发表于 2020-06-07 | 分类于 Python
字数统计: 192 | 阅读时长 ≈ 1
python库-操作Excelopenpyxl库三个基本概念:workbooks(工作簿),sheets(表), cells(单元格) 不支持打开xls格式的EXECL文件 打开EXCEL1234567891011121314from openpyxl import WorkBookfrom openpyxl import load_workbookwb = load_workbook('路径.xlsx') # 得到workbook对象sheetnames = wb.sheetnames # 得到workbook里面的表名ws = wb[sheetnames[index]] # 得到s ...
阅读全文 »

hadoop启动后jps没有namenode

发表于 2020-06-04 | 分类于 Hadoop , Hadoop大数据技术
字数统计: 10 | 阅读时长 ≈ 1
hadoop启动后jps没有namenode解决链接
阅读全文 »

数据库系统-SQL_Server

发表于 2020-06-04 | 分类于 数据库系统
字数统计: 178 | 阅读时长 ≈ 1
SQL Serverhttps://www.51zxw.net/List.aspx?cid=492 SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点,可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的服务器等多种平台使用。 启动SQL Server服务1.在控制面板服务中启动 2.开始中找到sql的服务配置文件 3.cmd命令启动 net start /stop mssqlserver SQL Server身份验证1.loc ...
阅读全文 »

虚拟机无法联网

发表于 2020-06-03 | 分类于 虚拟机
字数统计: 14 | 阅读时长 ≈ 1
虚拟机无法联网解决方案链接 url2
阅读全文 »

Hadoop大数据技术-第八章

发表于 2020-06-02 | 分类于 Hadoop , Hadoop大数据技术
字数统计: 228 | 阅读时长 ≈ 1
SqoopSqoop简介Sqoop是一个在关系型数据库与Hadoop数据存储和处理平台进行数据导入\导出的工具 Sqoop脚本最终会转换为mapreduce程序 Sqoop基本原理有sqoop1和sqoop2;sqoop1更加稳定 Sqoop1使用Sqoop客户端直接提交任务,通过CLI控制台或API方式访问数据时,在命令或脚本中需要指定用户数据库名及密码 import原理:从传统数据库获取元数据信息,把导入功能转换为只有Map的MapReduce作业,在map中有很多Map,每个Map读取一片数据,进而并行地复制到HDFS,HBSE或HIVE中的数据导入到关系型数据库 Export ...
阅读全文 »
上一页1…262728…38下一页
TTYONG

TTYONG

377 日志
52 分类
107 标签
RSS
E-Mail QQ WeiXin ZhiHu
友链
  • 百度
© 2020.3.4 — 2023 TTYONG | Site words total count: 807.8k
访问人数 访问总量 次
0%