无规则采集器列表算法( 【案例讲解】起始网址页即为内容页和标签循环采集功能)
优采云 发布时间: 2021-12-24 18:00无规则采集器列表算法(
【案例讲解】起始网址页即为内容页和标签循环采集功能)
【案例说明】
今天主要讲解起始URL页为内容页和标签循环采集功能,其他略!
我们想要 采集 的 URL:
如上图,我们需要采集形式的信息。
底部有分页,共29页。发现点击分页,URL没有变化,这时我们需要使用抓包软件Fiddler(学习抓包)抓到真实地址,如下图:
通过抓包,我们找到了我们需要的数据所在的页面地址,我们复制了URL,参考下图:
通过URL规则分析分页的参数变量。一般通过比较多个页面的URL就可以知道哪个是分页变量。找到变量规则后,我可以通过URL分页规则进行设置。共有 29 页。如下所示:
通过抓包软件,我们看到我们要采集的数据在爬取的页面中,不需要采集的内容页面。我们想要的内容在起始URL页面,那么我们需要使用优采云采集器的起始URL作为内容页面的URL,我们点击“点击设置”,如下图:
点击下图出现,是灰色的,无法进行设置,因为我们不需要设置采集内容页面的URL,所以这里不用设置。
直接进入内容采集规则设置界面,如下图所示,因为我们需要采集的内容是表格内容,而且全部在一页,所以需要使用循环采集,所以设置标签时,每个标签必须匹配上的循环√。(每个标签采集规则的内容这里就不说了,大家可以下载规则自己测试学习,其实还是有一定的技巧的)
网页上的表格数据每行收录一个信息,因此我们需要采集 下至一行信息。然后在左下角的循环设置中,我们需要将其设置为“添加新记录”,这样我们采集的信息将是一行一行,否则所有的信息都会堆积起来,而将只有一个消息。参考下图:
设置好后我们进行测试,下图说明设置成功
另外,当采集的页面信息循环时,发现第一条信息和其他信息的规则不同。经过分析,除了第一页,我们只能循环采集每一页。信息。我该怎么办?没有更好的办法。页面数据规则太简单了,找不到可以匹配所有信息的规则。解决这个问题只有一种傻瓜式方法,但它也是唯一可以解决这个问题的方法。即先循环采集所有信息,然后只对第一个信息设置规则,再取最后一个合并。这里共享的规则不能是采集到第一条消息。大家可以按照我的思路试试采集的第一条留言。
【以往福利】
【东哥福利】优采云采集器V9信息采集规则分享
【东哥福利】优采云采集器V9安居客社区信息采集规则分享
【东哥福利】豆瓣电影采集规则并发布到本地CSV格式文件
【东哥福利】美图采集规则与DZ3.X门户发布规则分享
【东哥福利】优采云采集器58同城招聘信息采集规则分享
【东哥福利】优采云采集器软件-今日头条娱乐新闻采集规则
【东哥福利】优采云采集器V9携程景点采集规则分享
【东哥福利】优采云采集器V9京东商城商品信息采集规则分享
优采云采集器软件V9.3最新视频教程-YY直播课录制合集
联系我们
【案例说明】
今天主要讲解起始URL页为内容页和标签循环采集功能,其他略!
我们想要 采集 的 URL:
如上图,我们需要采集形式的信息。
底部有分页,共29页。发现点击分页,URL没有变化,这时我们需要使用抓包软件Fiddler(学习抓包)抓到真实地址,如下图:
通过抓包,我们找到了我们需要的数据所在的页面地址,我们复制了URL,参考下图:
通过URL规则分析分页的参数变量。一般通过比较多个页面的URL就可以知道哪个是分页变量。找到变量规则后,我可以通过URL分页规则进行设置。共有 29 页。如下所示:
通过抓包软件,我们看到我们要采集的数据在爬取的页面中,不需要采集的内容页面。我们想要的内容在起始URL页面,那么我们需要使用优采云采集器的起始URL作为内容页面的URL,我们点击“点击设置”,如下图:
点击下图出现,是灰色的,无法进行设置,因为我们不需要设置采集内容页面的URL,所以这里不用设置。
直接进入内容采集规则设置界面,如下图所示,因为我们需要采集的内容是表格内容,而且全部在一页,所以需要使用循环采集,所以设置标签时,每个标签必须匹配上的循环√。(每个标签采集规则的内容这里就不说了,大家可以下载规则自己测试学习,其实还是有一定的技巧的)
网页上的表格数据每行收录一个信息,因此我们需要采集 下至一行信息。然后在左下角的循环设置中,我们需要将其设置为“添加新记录”,这样我们采集的信息将是一行一行,否则所有的信息都会堆积起来,而将只有一个消息。参考下图:
设置好后我们进行测试,下图说明设置成功
另外,当采集的页面信息循环时,发现第一条信息和其他信息的规则不同。经过分析,除了第一页,我们只能循环采集每一页。信息。我该怎么办?没有更好的办法。页面数据规则太简单了,找不到可以匹配所有信息的规则。解决这个问题只有一种傻瓜式方法,但它也是唯一可以解决这个问题的方法。即先循环采集所有信息,然后只对第一个信息设置规则,再取最后一个合并。这里共享的规则不能是采集到第一条消息。大家可以按照我的思路试试采集的第一条留言。
【以往福利】
【东哥福利】优采云采集器V9信息采集规则分享
【东哥福利】优采云采集器V9安居客社区信息采集规则分享
【东哥福利】豆瓣电影采集规则并发布到本地CSV格式文件
【东哥福利】美图采集规则与DZ3.X门户发布规则分享
【东哥福利】优采云采集器58同城招聘信息采集规则分享
【东哥福利】优采云采集器软件-今日头条娱乐新闻采集规则
【东哥福利】优采云采集器V9携程景点采集规则分享
【东哥福利】优采云采集器V9京东商城商品信息采集规则分享
优采云采集器软件V9.3最新视频教程-YY直播课录制合集
联系我们