内容采集(上下页导航式是如何采集的呢?怎么破?)

优采云 发布时间: 2022-01-26 05:09

  内容采集(上下页导航式是如何采集的呢?怎么破?)

  上下页面导航是分页采集的难点。他需要所有页面都符合分页规律。不熟悉的可以用第1页和第2页的代码对比分析再判断。分页正则表达式。

  1、我们以下面的网站内容分页为例:

  

  可以看到这条新闻共有20页。

  2、查看源码:

  

  本页除已采集的第1页外,还包括第2、3、4、5、6、7、8、20页,未列出分页项9至19。这时候我们使用第1页和第2页的代码进行对比分析,确定分页规律:

  (1)第1页代码:

  

  (2)第 2 页代码:

  

  从这两张图片可以看出,它们的“寻呼区起始码”、“寻呼链接”格式、“寻呼区结束码”是相同的,那么就可以确定“寻呼区规则”和“寻呼链接规则”。

  3、获取分页区域正则([!--smallpageallzz--]):

  

  4、获取分页链接正则([!--pageallzz--]):

  

  5、为了方便教程的展示,我用采集标题代替了采集新闻正文的内容,预览结果:

  

  预防措施:

  没有。一、在第一页的HTML代码中,当列出所有内容分页链接时,我们使用“list all”。在第一页的HTML代码中,如果内容分页链接没有全部列出,我们使用“上下页面导航”。

  当所有listing都使用二、时,采集规则正确但是有莫名其妙的重复分页,那么可以用替换的方法过滤掉(下节讲) .

  三、 使用上下页面导航时,总是选择第一页,其他页面甚至都没有看到影子。这是因为分页区规则([!--smallpagezz--])截取错误。

  第一个四、在使用上下页导航的时候,可以采集去前几页,但是后面前几页都重复到最后,这也是因为分页area is regular ([!--smallpagezz- -]) 截取错误,截取范围过大,导致前几个页面链接被重复截取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线