内容采集(上下页导航式是如何采集的呢？怎么破？)

优采云发布时间: 2022-01-26 05:09

　　上下页面导航是分页采集的难点。他需要所有页面都符合分页规律。不熟悉的可以用第1页和第2页的代码对比分析再判断。分页正则表达式。

　　1、我们以下面的网站内容分页为例：

　　可以看到这条新闻共有20页。

　　2、查看源码：

　　本页除已采集的第1页外，还包括第2、3、4、5、6、7、8、20页，未列出分页项9至19。这时候我们使用第1页和第2页的代码进行对比分析，确定分页规律：

　　(1）第1页代码：

　　（2）第 2 页代码：

　　从这两张图片可以看出，它们的“寻呼区起始码”、“寻呼链接”格式、“寻呼区结束码”是相同的，那么就可以确定“寻呼区规则”和“寻呼链接规则”。

　　3、获取分页区域正则（[!--smallpageallzz--]）：

　　4、获取分页链接正则（[!--pageallzz--]）：

　　5、为了方便教程的展示，我用采集标题代替了采集新闻正文的内容，预览结果：

　　预防措施：

　　没有。一、在第一页的HTML代码中，当列出所有内容分页链接时，我们使用“list all”。在第一页的HTML代码中，如果内容分页链接没有全部列出，我们使用“上下页面导航”。

　　当所有listing都使用二、时，采集规则正确但是有莫名其妙的重复分页，那么可以用替换的方法过滤掉（下节讲） .

　　三、使用上下页面导航时，总是选择第一页，其他页面甚至都没有看到影子。这是因为分页区规则（[!--smallpagezz--]）截取错误。

　　第一个四、在使用上下页导航的时候，可以采集去前几页，但是后面前几页都重复到最后，这也是因为分页area is regular ([!--smallpagezz- -]) 截取错误，截取范围过大，导致前几个页面链接被重复截取。

0

2022-01-26

内容采集

0 个评论

要回复文章请先登录或注册