文章cms采集(帝国cms采集过滤和替换(1)_光明网(组图) )
优采云 发布时间: 2022-02-16 19:12文章cms采集(帝国cms采集过滤和替换(1)_光明网(组图)
)
预防措施:
没有。一、在第一页的HTML代码中,当列出所有内容分页链接时,我们使用“list all”。在第一页的HTML代码中,如果内容分页链接没有全部列出,我们使用“上下页面导航”。
当所有列表都使用二、 时,采集 规则是正确的,但是出现了莫名其妙的重复分页。这时候就可以用替换的方法来过滤掉(我们下节讲)。
三、 使用上下页面导航时,总是选择第一页,其他页面甚至都没有看到影子。这是因为分页区规则([!--smallpagezz--])截取错误。
第一个四、在使用上下页导航时,可以采集去前几页,但是后面前几页都重复到最后,这也是因为分页area is regular ([!--smallpagezz- -]) 截取错误,截取范围过大,导致前几个页面链接被重复截取。
好了,本次讲座就到这里。下一讲我们主要介绍帝国cms采集的过滤和替换。
本文来自国外网站大全原创,转载请注明出处,谢谢!
感谢国外网站大全的贡献
上下页面导航是分页采集的难点。他需要所有页面都符合分页规律。不熟悉的可以用第1页和第2页的代码对比分析再判断。分页正则表达式。
1、我们以下面的网站内容分页为例:
可以看到这条新闻共有20页。
2、查看源码:
本页除已采集的第1页外,还包括第2、3、4、5、6、7、8、20页,未列出分页项9至19。这时候我们使用第1页和第2页的代码进行对比分析,确定分页规律:
(1)第1页代码:
(2)第 2 页代码:
从这两张图片可以看出,它们的“寻呼区起始码”、“寻呼链接”格式、“寻呼区结束码”是相同的,那么就可以确定“寻呼区规则”和“寻呼链接规则”。
3、常规获取分页区域([!--smallpageallzz--]):
4、获取分页链接正则([!--pageallzz--]):
5、为了方便教程的展示,我用采集标题代替了采集新闻正文的内容,预览结果: