【03】基础:同种网页结构套用采集规则

优采云 发布时间: 2020-08-30 08:22

  【03】基础:同种网页结构套用采集规则

  

  单条添加

  点击“添加线索”,输入线索网址后保存。

  

  批量添加

  用Excel储存线索网址

  

  点击“批量导出线索”,添加附件,点击“批量导出”后添加成功!

  

  添加了6条,加上原先的一个样本网址,总共7条线索,现在都是“待抓取”状态。

  在这个页面,除了添加线索、还可以激活、去活以及删掉线索。

  如何运行线索?

  运行采集规则就是运行规则里头的线索。

  由上图可知,现在“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行那些线索要在DS打数机启动。

  打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”都可以启动DS打数机进行抓取数据。

  单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。

  

  点击集搜后,待抓取线索有几条就输入几条,点击确定。

  

  我们看见DS打数机马上在运行抓取了。

  

  如果不知道待抓取线索有多少条,在DS打数机右击统计线索就可以了。

  

  如何激活线索?

  刚刚运行了“weibo_博主主页”这个采集规则,在会员中心见到这7条线索都是“抓取完成”的状态。

  

  如果按前面的步骤在DS打数机中再度运行规则,这时候会提示没有线索了,那是因为刚才早已运行这7条线索了。

  

  要重新抓取这种线索只要重新将这种线索激活就可以了,激活之后这种线索的状态将会弄成“待抓取”。

  激活有两种方式——

  规则管理激活

  在规则管理选择要激活的线索后点击“激活”按钮。

  

  DS窗口激活

  

  到这儿,看看刚才运行“weibo_博主主页”这个采集规则的结果文件吧~

  

  下一期将讲结果文件转成Excel,学完下一期你就早已入门了,只要不是复杂的网页你都可以采集了,所向披靡,是不是太兴奋。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线