自动采集器如何用 如何运行爬虫群
优采云 发布时间: 2020-08-24 21:45自动采集器如何用 如何运行爬虫群
下面是旧版的调度功能界面,新版本的调度功能请看《调度设置操作介绍》
GooSeeker爬虫从V5.6.0版本以来降低了爬虫群功能,支持在一台笔记本并发运行多个爬虫。爬虫群与做规则是可以同时运作的,但爬虫群只会采集调度池中的规则,想要手动采集哪个规则,就把它丢到调度池里,调度池相当于一个指挥中心,会手动分配采集任务给各个爬虫,所以,运行爬虫群、做规则、调度这三步是必须的,三者不分先后次序。
一、采集规则
首先要有自己的采集规则,可以是自己做的规则,也可以是下载他人的,具体有下边三种形式:
1)自己动手做规则,选择一个网页作为样本定义采集规则,具体操作请学习gooseeker使用教程
2)下载资源库的规则直接套用,资源库拥有大量成熟的规则模板,提供陌陌、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求
3)找人订制采集规则,如果资源库没有您要的网站规则,可以找集搜客订制,或者,发布规则悬赏任务,找到合适的人帮你做规则
二、运行爬虫群
要通过爬虫群来实现自动化采集,需要配置好爬虫群以及规则的调度,最后运行爬虫群都会采数据。
2.1 爬虫群配置
配置过程主要解决以下两个问题:
1)在一台计算机上同时运行多少个并发的爬虫窗口?这个由配置的线程数目决定。
2)DS打数机软件启动时就把这种窗口打开?还是手工打开?这就是自启动模式。
配置过程的基本操作:
选择DS打数机的菜单 爬虫群->配置,弹出配置窗口,点击添加都会新建一个爬虫(DS打数机窗口),想要手动弹出爬虫的话就勾上自启动,再点击保存,最后关掉窗口。
2.2 启动爬虫群
自动启动:设置了自启动爬虫的,重启DS打数机都会手动弹出多个爬虫(DS窗口)。
手工启动:没有设置自启动爬虫的,要打开DS打数机爬虫群菜单->启动,弹出爬虫列表,逐个选择确定后都会弹出新的DS窗口。
三、调度规则
每个规则都对应一个运行/暂停按键以及一个调度按键,想要手动采集哪个规则,就对它设置调度,可同时调度多个规则,每降低调度一个规则,都要点击调度按键进行设置,最后是由调度池统一分配采集任务给各个爬虫。
3.1 调度
1)DS打数机里点击爬虫群菜单->调度,进入到会员中心的规则管理页面,能看到自己的所有规则,想要手动采集哪个规则,就点击它的调度按键。
2)然后步入调度页面,想要转换excel格式的话,就勾上结果入库,其他设置都是调试好的,可以不用更改,我们直接默认就行,最后点击确认就搞定了,这样爬虫每采完一轮线索才会手动把数据入库。
3)调度后,想要暂停采集***主题,就点击运行/暂停按键,那么爬虫群会在采完当前任务后暂停***主题的采集,这是因为一轮线索数目默认为20,爬虫要采完这批线索才能停下来,如果想要立即停止采集,那就直接关闭爬虫群吧。
4)通过调度参数的设置,可以控制采集时间、采集速度、数据入库、翻页、周期增量采集最新数据等等。想要抓取愈发灵活的话,请按照实际网页情况设置调度参数,有时候要经过多次的测试能够找到合适的参数组合,每个调度参数的意义可查阅教程crontab爬虫调度。
注意:通过最大容许运行爬虫数设置,一个windows帐号可以并发运行1-20个DS打数机窗口,请兼具采集稳定性和效率设置合理的爬虫数目,并且控制好规则的采集速度(由调度参数:线索间等待最短时间、线索间等待最长时间、延迟抓取时间、滚屏速率、滚屏次数等控制)。
3.2 激活/添加线索
如果规则里有等待抓取的线索,爬虫都会手动调用规则采数据;若没有等待抓取的线索,想要爬虫采集数据,就要先去会员中心爬虫管理->规则管理里添加/激活线索。
想要重复采集***主题下的所有线索,但不想每次手工激活线索,就可以在调度里做激活线索设置,请依照须要选择激活时间类型、时间、激活形式。(无条件激活表示虽然还没采完所有线索,只要到了时间才会重新激活一遍所有线索;无剩余线索时激活表示就算到了时间,但也要采完所有线索后才激活一遍)
四、导出数据,转格式
在“调度”里设置了手动入库的话,DS打数机采数据并手动上传到会员中心的数据库里,等采完数据后,到爬虫管理->规则管理或数据管理,点击导入数据能够得到excel表的zip压缩包,并且在历史记录里可以查看导入记录以及重复下载。
没有设置手动入库的话,就要步入对应规则的管理页面中,点击激活入库后,再把本地笔记本中的数据文件打包为zip,再点击导出数据,从附件里选择单个xml文件或xml文件的压缩包zip,导入成功后能够导入数据。
【注意】可以免费导入1万条数据,超额请订购“专业版or旗舰版爬虫”或“数据库房”来扩大存储量后再继续导入数据,或订购“仓库清扫”把原有数据清除后再继续使用。
爬虫群模式是一种本地采集模式,抓出来的数据文件还是存在本地笔记本的DataScraperworks文件夹中,勾了手动入库的话,每采完一轮线索数目都会手动把xml文件打包成zip,一次最大导出20M的zip数据包,超过的话都会导出失败,入库成功后就把xml文件转移到imported文件夹里。
没有勾手动入库的话,请手工把xml文件打包为zip再导出数据,一次最大导出10M的zip数据包。
五、关于爬虫群模式
爬虫群模式是在一台笔记本里同时打开多个爬虫(即DS打数机窗口),通过设置较大的爬虫数目和合理的抓取速率,不仅增加了封锁IP风险,还能抓到更多数据,是十分稳定且高效的本地采集模式。它整合了crontab爬虫调度程序、DS打数机主要功能、数据库储存三大功能块,让您自由控制爬虫的数目以及运作情况,还有专享的数据库,高效处理千万级数据。
若有疑问可以或