文章cms采集(帝国cms采集过滤和替换(1)_光明网(组图) )

优采云发布时间: 2022-02-16 19:12

　　文章cms采集(帝国cms采集过滤和替换(1)_光明网(组图)

)

　　预防措施：

　　没有。一、在第一页的HTML代码中，当列出所有内容分页链接时，我们使用“list all”。在第一页的HTML代码中，如果内容分页链接没有全部列出，我们使用“上下页面导航”。

　　当所有列表都使用二、时，采集规则是正确的，但是出现了莫名其妙的重复分页。这时候就可以用替换的方法来过滤掉（我们下节讲）。

　　三、使用上下页面导航时，总是选择第一页，其他页面甚至都没有看到影子。这是因为分页区规则（[!--smallpagezz--]）截取错误。

　　第一个四、在使用上下页导航时，可以采集去前几页，但是后面前几页都重复到最后，这也是因为分页area is regular ([!--smallpagezz- -]) 截取错误，截取范围过大，导致前几个页面链接被重复截取。

　　好了，本次讲座就到这里。下一讲我们主要介绍帝国cms采集的过滤和替换。

　　本文来自国外网站大全原创，转载请注明出处，谢谢！

　　感谢国外网站大全的贡献

　　上下页面导航是分页采集的难点。他需要所有页面都符合分页规律。不熟悉的可以用第1页和第2页的代码对比分析再判断。分页正则表达式。

　　1、我们以下面的网站内容分页为例：

　　可以看到这条新闻共有20页。

　　2、查看源码：

　　本页除已采集的第1页外，还包括第2、3、4、5、6、7、8、20页，未列出分页项9至19。这时候我们使用第1页和第2页的代码进行对比分析，确定分页规律：

　　(1）第1页代码：

　　（2）第 2 页代码：

　　从这两张图片可以看出，它们的“寻呼区起始码”、“寻呼链接”格式、“寻呼区结束码”是相同的，那么就可以确定“寻呼区规则”和“寻呼链接规则”。

　　3、常规获取分页区域（[!--smallpageallzz--]）：

　　4、获取分页链接正则（[!--pageallzz--]）：

　　5、为了方便教程的展示，我用采集标题代替了采集新闻正文的内容，预览结果：

0

2022-02-16

文章cms采集

0 个评论

要回复文章请先登录或注册