全自动采集最新行业文章(基于Python的产品设计与应用——一下系统脚本 )

优采云 发布时间: 2021-11-16 13:07

  全自动采集最新行业文章(基于Python的产品设计与应用——一下系统脚本

)

  本文介绍了基于我多年的行业经验,在巨头的肩膀上开发的数据采集应用,也就是我们通常所说的爬虫系统。说到系统,不是单独的爬虫脚本,而是整套自动化采集的内容。因为我尝试了很多方法来搭建这个系统,这里分享一个最简单、易实现、效果最好的内容。现在各大日常数据相关公司基本都采用这种数据采集技术,简单、快捷、实用。下面简单介绍一下基于Python的产品设计和应用。

  编程语言:Python

  使用框架:Scrapy、Gerapy

  数据仓库:Mongodb

  其他内容:IP池

  简单说一下一般的业务流程。

  整理数据爬取目录整理成文档。

  根据文档编写Scrapy爬虫脚本。

  在Gerapy中部署Scrapy脚本并进行相关设置,实现24小时自动化采集。

  往来也会有一些问题。

  如何发现爬取到的网站无效?

  如何使用IP池?

  部署过程中随时遇到的各种坑。

  未来如何使用捕获的数据?

  使用中的各种问题可以查看我的技术文章,这里只介绍业务流程和功能使用。

  言归正传,开始正式内容

  

  整理数据采集文档

  如果用笨方式而不是穷举方式来采集,这一步是不可避免的。就是组织我们要爬取的目标页面。按照Scrapy爬取的格式要求整理。

  比如新华网和人民网,这个网站页面其实挺多的,而且因为页面的CSS不一样,整理起来很恶心,但是用完就可以了完成它。

  

  在记录的形式中,组织成这样,Spider下的py文件对应脚本名。

  

  这些页面组织起来的Scrapy脚本如下图所示。

  

  Scrapy框架爬虫脚本编写

  然后我根据模板写了数据采集脚本。我根据自己的习惯写了一套脚本。

  

  根据模板,所有捕获数据的页面都可以根据该模板进行应用。然后在本地调试,保证数据可以写入Mongodb。

  

  Gerapy框架部署实现7*24自动化数据采集

  部署主机。如果有多台机器,可以单独部署同一个脚本,也可以在不同机器上部署不同的脚本,看个人喜好。这里的项目就是上面Scrapy写的可执行脚本。

  

  然后根据项目打包部署。

  

  部署完成后,在编写好的Spider下设置爬虫脚本。

  

  这里部署脚本可以设置各种参数,比如每次执行的间隔、开始时间等。

  

  

  部署后,数据可以完全自动化采集。

  最后我们进入Mongodb看看采集的数量。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线