不用采集规则就可以采集(常见问题及更低集搜客网络爬虫的对应教程(组图) )
优采云 发布时间: 2022-02-26 22:08不用采集规则就可以采集(常见问题及更低集搜客网络爬虫的对应教程(组图)
)
FAQs> 采集Data—FAQ Navigation> 采集Process FAQs> 关于如何管理规则的话题
配套软件版本:V9及以下Jisoke网络爬虫
新版本对应教程:V10及更高版本数据管家-网络爬虫增强版对应教程为《如何管理网络爬虫的线索》
一、应用场景
1、添加URL:已经准备了一个规则,不仅适用于采集示例网页,还适用于与示例网页结构相同的采集网页,只需添加中间规则的 URL。例如,如果我们对采集某个京东产品页面制定规则,我们可以采集不同产品的页面。我们只需要将这些产品的 URL 添加到规则中。
2、激活线索:另外,在采集这批网址之后,我想再次采集,所以不需要重新添加,激活所有线索即可,我可以重复这批 采集 URL。
3、删除线索:如果我们不想采集这批URL,我们可以活或删除线索,这样爬虫就不会采集。
(注:上面的线索和url是一回事,网页的url其实就是爬虫想要采集的线索)
二、网站综合管理方法
会员中心的任务管理页面提供了管理网站的综合方法。进入会员中心的方法如下。
方法一:在浏览器中输入会员中心网址
登录吉索克官网,进入会员中心->任务管理,选择任务,进入管理页面添加、激活、停用、删除线索。添加线索的操作请参考教程。
注1:免费版爬虫的激活操作最多只能激活前1000条线索。如需激活更多线索,请购买爬虫付费版。
注2:去激活和下面说的撤消是一样的操作,不是删除,只是把线索的状态从等待抓取变为抓取成功,这样就不会采集被激活了再次使用。
方法二:使用数据管家的便捷按钮
数据管理器是吉索客的新产品,更加方便易用。如下图所示,左栏菜单中有任务管理和数据管理的快捷按钮。点击后可以直接进入会员中心。
三、管理 Jisouke DS 打印机上的 URL
注:数据管家的网站管理已完全融入综合会员中心,不再有DS数码机独有的这些管理功能。
1:通过计数器添加URL
启动Gooseeker爬虫浏览器,在浏览器右上角点击DS计数器按钮进入DS计数器管理窗口,右键规则名称,在弹出的快捷菜单中,统计线索和管理线索经常使用,其中,见添加线索的操作。
2:通过计数器统计URL
在采集数据前,点击统计线索可以知道该规则是否有线索要抓。如果没有,则需要添加新线索或激活现有线索,如下图所示。
3:其他网址管理功能
采集完所有网址后,一般会提示“”逐个/分批添加新网址;或激活失败的潜在客户、激活所有潜在客户并取消所有潜在客户。