文章网址采集器(蜀戎网络推广服务商SEO服务(新闻资讯)_光明网)

优采云 发布时间: 2021-12-13 00:23

  文章网址采集器(蜀戎网络推广服务商SEO服务(新闻资讯)_光明网)

  树融网络推广服务商

  SEO服务新闻 关于舒容

  上面的xpath值可以在“Content Paging”Get Paging Area”中设置获取固定区域的分页链接,否则会获取整个页面的分页链接

  分页链接规则:

  完整分页和上下分页可以直接通过a标签获取链接:

  复制代码

  JS方式分页通过查看源码发现链接格式为:

  复制代码

  

  使用规则匹配分页链接:

  复制代码

  因为JS模式不能自动补全网址,所以要填写“拼接到最终页面链接”:

  【内容一】

  复制代码

  为了防止非分页链接被匹配,在“内容分页”分页网址过滤“必须收录”中填写“page=”,使用“article/news/pg/id/d+.html?page=d+”为了更精确

  下面来测试一下“全分页JS模式”的链接爬取

  

  “测试”爬取分页效果

  

  注意:很多网站由于程序问题都会有2种格式的文章首页链接,比如例子中的文章首页链接:和(来自第二页文章首页就是链接),这两个链接的内容是一样的,会导致文章首页重复爬取

  解决方法:在“内容分页”中填写“page=1$”分页网址过滤“不能收录”排除第一页链接

  常见问题:

  标签:

  转载:本站文章均摘自书融网络权威资料、书籍或网络原创文章。如有版权纠纷或侵权,请立即联系我们删除,未经许可禁止复制和转载!感激...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线