欢迎您来到懒之才-站长的分享平台!   学会偷懒,并懒出境界是提高工作效率最有效的方法!
首页 > 教程文档 > python > 用Python写网络爬虫[PDF][9.89MB]

用Python写网络爬虫[PDF][9.89MB]

2019-06-27 487 收藏 0 赞一个 0 真差劲 0 去评论 去下载

内容简介

《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。n
《用Python写网络爬虫》适合有Python编程经验,而且对爬虫技术感兴趣的读者阅读。

目录

第1章 网络爬虫简介 1n
1.1网络爬虫何时有用1n
1.2网络爬虫是否合法2n
1.3背景调研3n
1.3.1检查robots.txt3n
1.3.2检查网站地图4n
1.3.3估算网站大小5n
1.3.4识别网站所用技术7n
1.3.5寻找网站所有者7n
1.4编写个网络爬虫8n
1.4.1下载网页9n
1.4.2网站地图爬虫12n
1.4.3ID遍历爬虫13n
1.4.4链接爬虫15n
1.5本章小结22n
n
第2章数据抓取23n
2.1分析网页23n
2.2三种网页抓取方法26n
2.2.1正则表达式26n
2.2.2Beautiful Soup28n
2.2.3Lxml30n
2.2.4性能对比32n
2.2.5结论35n
2.2.6为链接爬虫添加抓取回调35n
2.3本章小结38n
n
第3章下载缓存39n
3.1为链接爬虫添加缓存支持39n
3.2磁盘缓存42n
3.2.1实现44n
3.2.2缓存测试46n
3.2.3节省磁盘空间46n
3.2.4清理过期数据47n
3.2.5缺点48n
3.3数据库缓存49n
3.3.1NoSQL是什么50n
3.3.2安装MongoDB50n
3.3.3MongoDB概述50n
3.3.4MongoDB缓存实现52n
3.3.5压缩54n
3.3.6缓存测试54n
3.4本章小结55n
n
第4章并发下载57n
4.1100万个网页57n
4.2串行爬虫60n
4.3多线程爬虫60n
4.3.1线程和进程如何工作61n
4.3.2实现61n
4.3.3多进程爬虫63n
4.4性能67n
4.5本章小结68n
n
第5章动态内容69n
5.1动态网页示例69n
5.2对动态网页进行逆向工程72n
5.3渲染动态网页77n
5.3.1PyQt还是PySide78n
5.3.2执行JavaScript78n
5.3.3使用WebKit与网站交互80n
5.3.4Selenium85n
5.4本章小结88n
n
第6章表单交互89n
6.1登录表单90n
6.2支持内容更新的登录脚本扩展97n
6.3使用Mechanize模块实现自动化表单处理100n
6.4本章小结102n
n
第7章验证码处理103n
7.1注册账号103n
7.2光学字符识别106n
7.3处理复杂验证码111n
7.3.1使用验证码处理服务112n
7.3.29kw入门112n
7.3.3与注册功能集成119n
7.4本章小结120n
n
第8章Scrapy121n
8.1安装121n
8.2启动项目122n
8.2.1定义模型123n
8.2.2创建爬虫124n
8.2.3使用shell命令抓取128n
8.2.4检查结果129n
8.2.5中断与恢复爬虫132n
8.3使用Portia编写可视化爬虫133n
8.3.1安装133n
8.3.2标注136n
8.3.3优化爬虫138n
8.3.4检查结果140n
8.4使用Scrapely实现自动化抓取141n
8.5本章小结142n
n
第9章总结143n
9.1Google搜索引擎143n
9.2Facebook148n
9.2.1网站148n
9.2.2API150n
9.3Gap151n
9.4宝马153n
9.5本章小结157

文档截图

QQ截图20190627101826.jpg

用Python写网络爬虫[PDF][9.89MB]

一、推荐使用迅雷或快车等多线程下载软件下载本站资源。

二、未登录会员无法下载,登录后可获得更多便利功能,若未注册,请先注册。

三、如果服务器暂不能下载请稍后重试!总是不能下载,请点我报错 ,谢谢合作!

四、本站大部分资源是网上搜集或私下交流学习之用,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站将不对任何资源负法律责任.如果您发现本站有部分资源侵害了您的权益,请速与我们联系,我们将尽快处理.

五、如有其他问题,请加网站设计交流群(点击这里查看交流群 )进行交流。

六、如需转载本站资源,请注明转载来自并附带链接

七、本站部分资源为加密压缩文件,统一解压密码为:www.aizhanzhe.com

下载地址
大家评论