文章cms采集(帝国cms采集过滤和替换(1)_光明网(组图) )

优采云 发布时间: 2022-02-16 19:12

  文章cms采集(帝国cms采集过滤和替换(1)_光明网(组图)

)

  预防措施:

  没有。一、在第一页的HTML代码中,当列出所有内容分页链接时,我们使用“list all”。在第一页的HTML代码中,如果内容分页链接没有全部列出,我们使用“上下页面导航”。

  当所有列表都使用二、 时,采集 规则是正确的,但是出现了莫名其妙的重复分页。这时候就可以用替换的方法来过滤掉(我们下节讲)。

  三、 使用上下页面导航时,总是选择第一页,其他页面甚至都没有看到影子。这是因为分页区规则([!--smallpagezz--])截取错误。

  第一个四、在使用上下页导航时,可以采集去前几页,但是后面前几页都重复到最后,这也是因为分页area is regular ([!--smallpagezz- -]) 截取错误,截取范围过大,导致前几个页面链接被重复截取。

  好了,本次讲座就到这里。下一讲我们主要介绍帝国cms采集的过滤和替换。

  本文来自国外网站大全原创,转载请注明出处,谢谢!

  感谢国外网站大全的贡献

  上下页面导航是分页采集的难点。他需要所有页面都符合分页规律。不熟悉的可以用第1页和第2页的代码对比分析再判断。分页正则表达式。

  1、我们以下面的网站内容分页为例:

  

  可以看到这条新闻共有20页。

  2、查看源码:

  

  本页除已采集的第1页外,还包括第2、3、4、5、6、7、8、20页,未列出分页项9至19。这时候我们使用第1页和第2页的代码进行对比分析,确定分页规律:

  (1)第1页代码:

  

  (2)第 2 页代码:

  

  从这两张图片可以看出,它们的“寻呼区起始码”、“寻呼链接”格式、“寻呼区结束码”是相同的,那么就可以确定“寻呼区规则”和“寻呼链接规则”。

  3、常规获取分页区域([!--smallpageallzz--]):

  

  4、获取分页链接正则([!--pageallzz--]):

  

  5、为了方便教程的展示,我用采集标题代替了采集新闻正文的内容,预览结果:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线