文章cms采集(上下页导航式是如何采集出来的?如何确定“区域正则”)
优采云 发布时间: 2021-11-02 23:11文章cms采集(上下页导航式是如何采集出来的?如何确定“区域正则”)
上下页导航是分页采集的难点。它需要所有页面都符合分页规则。如果您不熟悉,我们可以使用第1页和第2页的代码进行比较和分析,然后确定分页规则。
1、 下面以网站的内容分页为例:
可以看到这条新闻一共有20页。
2、查看源码:
这个页面除了采集已经到达的第一页,还包括第二、三、四、五、六、七、八、二十页,但是第一页是从9到19分页未列出。这时候我们用第1页和第2页的代码进行对比分析,确定分页规则:
(1) 第 1 页代码:
(2)第2页代码:
从这两张图可以看出,它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”是相同的,那么就可以确定“页面区域规律”和“页面链接规律”了.
3、获取分页区正则([!--smallpageallzz--]):
4、获取分页链接常规([!--pageallzz--]):
5、为了方便教程的展示,newstext我采集有标题而不是采集的内容,预览结果:
预防措施:
一、 在第一页的HTML代码中,当列出所有内容分页链接时,我们使用“list all”。在第一页的HTML代码中,当内容分页链接没有全部列出时,我们使用“上下导航”。
当二、列表全部列出时,采集的规则是正确的,但是莫名的有重复的页面。这时候就可以用替换的方法来过滤掉(我们下一讲会讲到)。
当三、使用上下页导航样式时,第一页总是被捡起来,其他页面甚至都没有看到影子。这是因为分页区常规([!--smallpagezz--])截取错误。
当四、使用上下页导航样式时,可以采集跳转到前几页,但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz- -])拦截错误,拦截范围过大,导致重复拦截前几页链接。
好了,本次讲座到此结束。在下一篇文章中,我们爱站技术频道介绍帝国cms采集过滤和替换。