Python爬虫大数据采集与挖掘(PPT、代码、视频)

优采云 发布时间: 2022-06-05 13:10

  Python爬虫大数据采集与挖掘(PPT、代码、视频)

  

  本书实践性强、有丰富的案例、干货多,学生喜欢。PPT、代码和视频配套教学和学习资料的获取方法如下:

  1、教学用的PPT

  下载链接(网盘): 提取码: 5*敏*感*词*y (如果链接失效,请转至留言处获得最新下载方法)

  分别对应于书的章节,共有12个PPT。

  PPT1:大数据采集的重要性、技术体系、爬虫合规性、应用现状以及技术发展趋势等。

  PPT2:相关基础技术和方法,包括HTML语言规范、页面编码体系与规范、以及广泛用于Web页面简单信息提取的正则表达式。

  PPT3: Web应用架构技术,包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。

  PPT4: 普通爬虫页面采集技术,包括Web服务器连接、爬虫策略、超链接处理及Python的实现。

  PPT5: 动态爬虫的相关技术,包括动态页面内容生成、交互、动态页面采集的若干种典型方法和Python实现技术。

  PPT6: 从Web页面提取信息所需要的技术,介绍了技术原理和典型的开源技术。

  PPT7: 主题爬虫技术及实现方法,涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。

  PPT8: 关于DeepWeb的数据采集技术及实现。

  PPT9: 微博信息采集方法及实现,包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。

  PPT10: 反爬虫的常用技术,同时也介绍了针对这些反爬虫技术的一些主要应对措施。

  PPT11: 大数据采集应用对非结构化文本的处理技术,包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。

  PPT12: 两个案例(新闻阅读器、SQL注入的爬虫监测)

  2、相关Python代码

  具体下载地址见书本的附录A,包含了以下例子。

  Prog-1-error-handle.py 爬虫的错误处理方法

  Prog-2-hyper-link-extraction.py 超链接提取方法

  prog-3-robotparser-demo.py Robots协议文件解析

  Prog-4-cookie-demo.py 在爬虫中使用Cookie

  Prog-5-HTMLParser-test.py 使用HTMLParser进行页面解析

  Prog-6-lxml-test.py 使用lxml进行页面解析

  Prog-7-bs-sinanews.py 使用BeautifulSoup进行新闻页面解析

  Prog-8-html5lib-test.py 使用html5lib进行页面解析

  Prog-9-pyquery-sinanews.py 使用Pyquery进行新闻页面解析

  Prog-10-topic-pages.py 主题爬虫

  Prog-11-book-info.py 图书DeepWeb爬虫

  Prog-12-weiboUserInfo.py 微博用户信息采集

  Prog-13-weiboMsgInfo.py 微博博文信息采集

  Prog-14-doc-vectors.py 文档向量空间模型构建

  Prog-15-train-classifier.py 训练分类器

  Prog-16-classify.py 使用SVM进行分类

  Prog-17-LDA-sklearn.py LDA模型的Python实现

  Prog-18-LDA-gensim.py LDA模型的Python实现

  Prog-19-matplotlib-examples.py matplotlib的使用

  Prog-20-wordcloud-example.py wordcloud的使用

  Prog-21-sinaNewsSpider.py 新浪新闻采集与提取

  Prog-22-KeywordCloud.py 新闻阅读器的关键词输出

  Prog-23-LDAnewsTopic.py 新闻主题发现

  Prog-24-check.py 使用爬虫进行SQL注入安全监测

  crawler-strategy 4.4.2的完整程序,爬虫策略

  classify 11.3的例子,包含训练数据、测试数据

  app-1 12.2的样例

  LDA 11.4的例子

  sqlijnect 12.3的例子

  3、视频

  300分钟的讲课视频,可以直接手机扫书中的二维码,即可观看。

  4、相关拓展阅读

  本公众号不定期推送与《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》相关的文章,是作者在相关领域教学科研中的一些资料,可以加深对书中一些问题的理解。部分推送的文章有:

  爬虫应用案例

  爬虫技术

  大数据技术

  模型与算法

  更多文章可进入本公众号历史消息阅读。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线