Python爬虫大数据采集与挖掘(PPT、代码、视频)
优采云 发布时间: 2022-06-05 13:10Python爬虫大数据采集与挖掘(PPT、代码、视频)
本书实践性强、有丰富的案例、干货多,学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下:
1、教学用的PPT
下载链接(网盘): 提取码: 5*敏*感*词*y (如果链接失效,请转至留言处获得最新下载方法)
分别对应于书的章节,共有12个PPT。
PPT1:大数据采集的重要性、技术体系、爬虫合规性、应用现状以及技术发展趋势等。
PPT2:相关基础技术和方法,包括HTML语言规范、页面编码体系与规范、以及广泛用于Web页面简单信息提取的正则表达式。
PPT3: Web应用架构技术,包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。
PPT4: 普通爬虫页面采集技术,包括Web服务器连接、爬虫策略、超链接处理及Python的实现。
PPT5: 动态爬虫的相关技术,包括动态页面内容生成、交互、动态页面采集的若干种典型方法和Python实现技术。
PPT6: 从Web页面提取信息所需要的技术,介绍了技术原理和典型的开源技术。
PPT7: 主题爬虫技术及实现方法,涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。
PPT8: 关于DeepWeb的数据采集技术及实现。
PPT9: 微博信息采集方法及实现,包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。
PPT10: 反爬虫的常用技术,同时也介绍了针对这些反爬虫技术的一些主要应对措施。
PPT11: 大数据采集应用对非结构化文本的处理技术,包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。
PPT12: 两个案例(新闻阅读器、SQL注入的爬虫监测)
2、相关Python代码
具体下载地址见书本的附录A,包含了以下例子。
Prog-1-error-handle.py 爬虫的错误处理方法
Prog-2-hyper-link-extraction.py 超链接提取方法
prog-3-robotparser-demo.py Robots协议文件解析
Prog-4-cookie-demo.py 在爬虫中使用Cookie
Prog-5-HTMLParser-test.py 使用HTMLParser进行页面解析
Prog-6-lxml-test.py 使用lxml进行页面解析
Prog-7-bs-sinanews.py 使用BeautifulSoup进行新闻页面解析
Prog-8-html5lib-test.py 使用html5lib进行页面解析
Prog-9-pyquery-sinanews.py 使用Pyquery进行新闻页面解析
Prog-10-topic-pages.py 主题爬虫
Prog-11-book-info.py 图书DeepWeb爬虫
Prog-12-weiboUserInfo.py 微博用户信息采集
Prog-13-weiboMsgInfo.py 微博博文信息采集
Prog-14-doc-vectors.py 文档向量空间模型构建
Prog-15-train-classifier.py 训练分类器
Prog-16-classify.py 使用SVM进行分类
Prog-17-LDA-sklearn.py LDA模型的Python实现
Prog-18-LDA-gensim.py LDA模型的Python实现
Prog-19-matplotlib-examples.py matplotlib的使用
Prog-20-wordcloud-example.py wordcloud的使用
Prog-21-sinaNewsSpider.py 新浪新闻采集与提取
Prog-22-KeywordCloud.py 新闻阅读器的关键词输出
Prog-23-LDAnewsTopic.py 新闻主题发现
Prog-24-check.py 使用爬虫进行SQL注入安全监测
crawler-strategy 4.4.2的完整程序,爬虫策略
classify 11.3的例子,包含训练数据、测试数据
app-1 12.2的样例
LDA 11.4的例子
sqlijnect 12.3的例子
3、视频
300分钟的讲课视频,可以直接手机扫书中的二维码,即可观看。
4、相关拓展阅读
本公众号不定期推送与《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》相关的文章,是作者在相关领域教学科研中的一些资料,可以加深对书中一些问题的理解。部分推送的文章有:
爬虫应用案例
爬虫技术
大数据技术
模型与算法
更多文章可进入本公众号历史消息阅读。