【03】基础:同种网页结构套用采集规则
优采云 发布时间: 2020-08-30 08:22【03】基础:同种网页结构套用采集规则
单条添加
点击“添加线索”,输入线索网址后保存。
批量添加
用Excel储存线索网址
点击“批量导出线索”,添加附件,点击“批量导出”后添加成功!
添加了6条,加上原先的一个样本网址,总共7条线索,现在都是“待抓取”状态。
在这个页面,除了添加线索、还可以激活、去活以及删掉线索。
如何运行线索?
运行采集规则就是运行规则里头的线索。
由上图可知,现在“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行那些线索要在DS打数机启动。
打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”都可以启动DS打数机进行抓取数据。
单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。
点击集搜后,待抓取线索有几条就输入几条,点击确定。
我们看见DS打数机马上在运行抓取了。
如果不知道待抓取线索有多少条,在DS打数机右击统计线索就可以了。
如何激活线索?
刚刚运行了“weibo_博主主页”这个采集规则,在会员中心见到这7条线索都是“抓取完成”的状态。
如果按前面的步骤在DS打数机中再度运行规则,这时候会提示没有线索了,那是因为刚才早已运行这7条线索了。
要重新抓取这种线索只要重新将这种线索激活就可以了,激活之后这种线索的状态将会弄成“待抓取”。
激活有两种方式——
规则管理激活
在规则管理选择要激活的线索后点击“激活”按钮。
DS窗口激活
到这儿,看看刚才运行“weibo_博主主页”这个采集规则的结果文件吧~
下一期将讲结果文件转成Excel,学完下一期你就早已入门了,只要不是复杂的网页你都可以采集了,所向披靡,是不是太兴奋。