文章网址采集器(蜀戎网络推广服务商SEO服务(新闻资讯)_光明网)
优采云 发布时间: 2021-12-13 00:23文章网址采集器(蜀戎网络推广服务商SEO服务(新闻资讯)_光明网)
树融网络推广服务商
SEO服务新闻 关于舒容
上面的xpath值可以在“Content Paging”Get Paging Area”中设置获取固定区域的分页链接,否则会获取整个页面的分页链接
分页链接规则:
完整分页和上下分页可以直接通过a标签获取链接:
复制代码
JS方式分页通过查看源码发现链接格式为:
复制代码
使用规则匹配分页链接:
复制代码
因为JS模式不能自动补全网址,所以要填写“拼接到最终页面链接”:
【内容一】
复制代码
为了防止非分页链接被匹配,在“内容分页”分页网址过滤“必须收录”中填写“page=”,使用“article/news/pg/id/d+.html?page=d+”为了更精确
下面来测试一下“全分页JS模式”的链接爬取
“测试”爬取分页效果
注意:很多网站由于程序问题都会有2种格式的文章首页链接,比如例子中的文章首页链接:和(来自第二页文章首页就是链接),这两个链接的内容是一样的,会导致文章首页重复爬取
解决方法:在“内容分页”中填写“page=1$”分页网址过滤“不能收录”排除第一页链接
常见问题:
标签:
转载:本站文章均摘自书融网络权威资料、书籍或网络原创文章。如有版权纠纷或侵权,请立即联系我们删除,未经许可禁止复制和转载!感激...