全自动采集最新行业文章(基于Python的产品设计与应用——一下系统脚本 )
优采云 发布时间: 2021-11-16 13:07全自动采集最新行业文章(基于Python的产品设计与应用——一下系统脚本
)
本文介绍了基于我多年的行业经验,在巨头的肩膀上开发的数据采集应用,也就是我们通常所说的爬虫系统。说到系统,不是单独的爬虫脚本,而是整套自动化采集的内容。因为我尝试了很多方法来搭建这个系统,这里分享一个最简单、易实现、效果最好的内容。现在各大日常数据相关公司基本都采用这种数据采集技术,简单、快捷、实用。下面简单介绍一下基于Python的产品设计和应用。
编程语言:Python
使用框架:Scrapy、Gerapy
数据仓库:Mongodb
其他内容:IP池
简单说一下一般的业务流程。
整理数据爬取目录整理成文档。
根据文档编写Scrapy爬虫脚本。
在Gerapy中部署Scrapy脚本并进行相关设置,实现24小时自动化采集。
往来也会有一些问题。
如何发现爬取到的网站无效?
如何使用IP池?
部署过程中随时遇到的各种坑。
未来如何使用捕获的数据?
使用中的各种问题可以查看我的技术文章,这里只介绍业务流程和功能使用。
言归正传,开始正式内容
整理数据采集文档
如果用笨方式而不是穷举方式来采集,这一步是不可避免的。就是组织我们要爬取的目标页面。按照Scrapy爬取的格式要求整理。
比如新华网和人民网,这个网站页面其实挺多的,而且因为页面的CSS不一样,整理起来很恶心,但是用完就可以了完成它。
在记录的形式中,组织成这样,Spider下的py文件对应脚本名。
这些页面组织起来的Scrapy脚本如下图所示。
Scrapy框架爬虫脚本编写
然后我根据模板写了数据采集脚本。我根据自己的习惯写了一套脚本。
根据模板,所有捕获数据的页面都可以根据该模板进行应用。然后在本地调试,保证数据可以写入Mongodb。
Gerapy框架部署实现7*24自动化数据采集
部署主机。如果有多台机器,可以单独部署同一个脚本,也可以在不同机器上部署不同的脚本,看个人喜好。这里的项目就是上面Scrapy写的可执行脚本。
然后根据项目打包部署。
部署完成后,在编写好的Spider下设置爬虫脚本。
这里部署脚本可以设置各种参数,比如每次执行的间隔、开始时间等。
部署后,数据可以完全自动化采集。
最后我们进入Mongodb看看采集的数量。