Python爬虫大数据采集与挖掘（PPT、代码、视频）

优采云发布时间: 2022-06-05 13:10

　　本书实践性强、有丰富的案例、干货多，学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下：

　　1、教学用的PPT

　　下载链接（网盘）: 提取码: 5c4y （如果链接失效，请转至留言处获得最新下载方法）

　　分别对应于书的章节，共有12个PPT。

　　PPT1：大数据采集的重要性、技术体系、爬虫合规性、应用现状以及技术发展趋势等。

　　PPT2：相关基础技术和方法，包括HTML语言规范、页面编码体系与规范、以及广泛用于Web页面简单信息提取的正则表达式。

　　PPT3: Web应用架构技术，包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。

　　PPT4: 普通爬虫页面采集技术，包括Web服务器连接、爬虫策略、超链接处理及Python的实现。

　　PPT5: 动态爬虫的相关技术，包括动态页面内容生成、交互、动态页面采集的若干种典型方法和Python实现技术。

　　PPT6: 从Web页面提取信息所需要的技术，介绍了技术原理和典型的开源技术。

　　PPT7: 主题爬虫技术及实现方法，涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。

　　PPT8: 关于DeepWeb的数据采集技术及实现。

　　PPT9: 微博信息采集方法及实现，包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。

　　PPT10: 反爬虫的常用技术，同时也介绍了针对这些反爬虫技术的一些主要应对措施。

　　PPT11: 大数据采集应用对非结构化文本的处理技术，包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。

　　PPT12: 两个案例（新闻阅读器、SQL注入的爬虫监测）

　　2、相关Python代码

　　具体下载地址见书本的附录A，包含了以下例子。

　　Prog-1-error-handle.py 爬虫的错误处理方法

　　Prog-2-hyper-link-extraction.py 超链接提取方法

　　prog-3-robotparser-demo.py Robots协议文件解析

　　Prog-4-cookie-demo.py 在爬虫中使用Cookie

　　Prog-5-HTMLParser-test.py 使用HTMLParser进行页面解析

　　Prog-6-lxml-test.py 使用lxml进行页面解析

　　Prog-7-bs-sinanews.py 使用BeautifulSoup进行新闻页面解析

　　Prog-8-html5lib-test.py 使用html5lib进行页面解析

　　Prog-9-pyquery-sinanews.py 使用Pyquery进行新闻页面解析

　　Prog-10-topic-pages.py 主题爬虫

　　Prog-11-book-info.py 图书DeepWeb爬虫

　　Prog-12-weiboUserInfo.py 微博用户信息采集

　　Prog-13-weiboMsgInfo.py 微博博文信息采集

　　Prog-14-doc-vectors.py 文档向量空间模型构建

　　Prog-15-train-classifier.py 训练分类器

　　Prog-16-classify.py 使用SVM进行分类

　　Prog-17-LDA-sklearn.py LDA模型的Python实现

　　Prog-18-LDA-gensim.py LDA模型的Python实现

　　Prog-19-matplotlib-examples.py matplotlib的使用

　　Prog-20-wordcloud-example.py wordcloud的使用

　　Prog-21-sinaNewsSpider.py 新浪新闻采集与提取

　　Prog-22-KeywordCloud.py 新闻阅读器的关键词输出

　　Prog-23-LDAnewsTopic.py 新闻主题发现

　　Prog-24-check.py 使用爬虫进行SQL注入安全监测

　　crawler-strategy 4.4.2的完整程序，爬虫策略

　　classify 11.3的例子，包含训练数据、测试数据

　　app-1 12.2的样例

　　LDA 11.4的例子

　　sqlijnect 12.3的例子

　　3、视频

　　300分钟的讲课视频，可以直接手机扫书中的二维码，即可观看。

　　4、相关拓展阅读

　　本公众号不定期推送与《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》相关的文章，是作者在相关领域教学科研中的一些资料，可以加深对书中一些问题的理解。部分推送的文章有：

　　爬虫应用案例

　　爬虫技术

　　大数据技术

　　模型与算法

　　更多文章可进入本公众号历史消息阅读。

0

2022-06-05

通过关键词采集文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Python爬虫大数据采集与挖掘（PPT、代码、视频）

0 个评论

发起人

AI时代内容工厂

Python爬虫大数据采集与挖掘（PPT、代码、视频）

0 个评论

发起人

相关问题