Empirecms网站采集Content 分页教程

优采云 发布时间: 2021-07-29 00:24

  Empirecms网站采集Content 分页教程

  上下页面导航是采集分页的难点。它需要所有页面都符合分页规则。如果您不熟悉,我们可以使用第 1 页和第 2 页的代码进行比较分析。确定分页规律。

  1、 下面以网站内容分页为例:

  

  可以看到这条新闻一共有20页。

  2、查看源码:

  

  本页除了采集已经到达的第一页外,还包括第二、三、四、五、六、七、八、二十页,但是9-19页没有列出这时候我们就用page 1和page 2的代码进行对比分析,确定分页规则:

  (1)第一页代码:

  

  (2)第2页代码:

  

  从这两张图可以看出,它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”都是一样的,那么“页面区域规律”和“页面链接规律”可以确定。 .

  3、获取分页区正则([!--smallpageallzz--]):

  

  4、获取分页链接常规([!--pageallzz--]):

  

  5、为了方便教程的展示,我在newstext中用采集代替采集content,预览结果:

  

  注意事项:

  #一、在第一页的HTML代码中,当内容分页链接全部列出时,我们使用“list all”。在第一页的HTML代码中,当内容分页链接没有全部列出时,我们使用“上下导航”。

  二、使用完整列表公式时,采集规则正确,但出现莫名重复的页面。在这种情况下,您可以使用替换的方法将其过滤掉(我们将在下一讲中讨论)。

  三、使用上下页导航样式的时候,我总是挑第一页,其他页连影子都没看到。这是因为分页区正则([!--smallpagezz--])截取错误。

  四、使用上下页导航样式时,可以采集跳转到前几页,但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz--])拦截错误,拦截范围过大,导致重复拦截前几页链接。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线