文章cms采集(上下页导航式是采集的难点吗？怎么破？)

优采云发布时间: 2021-10-06 12:15

　　上下页导航是分页采集的难点。它需要所有页面都符合分页规则。如果您不熟悉，我们可以使用第1页和第2页的代码进行比较和分析，然后确定分页规则。

　　1、我们以“艾力网内容分页()”为例：

　　可以看到这条新闻一共有20页。

　　2、查看源码：

　　这个页面除了采集已经到达的第一页，还包括第二、三、四、五、六、七、八、二十页，但是第一页是从9到19分页未列出。这时候我们就用第1页和第2页的代码进行对比分析，确定分页规则：

　　（1) 第 1 页代码：

　　（2)第2页代码：

　　从这两张图可以看出，它们的“页区起始码”、“页链接”格式、“页区结束码”都是一样的，那么就可以确定“页区正则”和“页链接正则”了。

　　3、获取分页区正则([!--smallpageallzz--])：

　　4、获取分页链接常规（[!--pageallzz--]）：

　　5、为了方便教程的展示，newstext我采集把采集的内容改为标题，预览结果：

　　预防措施：

　　一、在第一页的HTML代码中，当列出所有内容分页链接时，我们使用“list all”。在第一页的HTML代码中，当内容分页链接没有全部列出时，我们使用“上下导航”。

　　当二、列表全部列出时，采集的规则是正确的，但是莫名的有重复的页面。这时候就可以用替换的方法来过滤掉（我们下一讲会讲到）。

　　当三、使用上下页导航样式时，第一页总是被选中，其他页面甚至没有看到阴影。这是因为分页区常规([!--smallpagezz--])截取错误。

　　当四、使用上下页导航样式时，可以采集跳转到前几页，但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz- -])拦截错误，拦截范围过大，导致重复拦截前几页链接。

　　好了，本次讲座到此结束。下一页我们主要介绍帝国cms采集的过滤和替换。

0

2021-10-06

文章cms采集

0 个评论

要回复文章请先登录或注册