推荐文章:【从零开始学爬虫】采集站长之家文章数据
优采云 发布时间: 2022-09-25 02:13推荐文章:【从零开始学爬虫】采集站长之家文章数据
l 采集网站
【场景描述】采集站长之家文章资料。
[来源网站简介]
站长之家(中国站长站)提供全面的站长资讯、源代码程序下载、海量建站资料、强大的搜索优化辅助、网络产品设计和运营理念、一站式网络解决方案,我们一直致力于十年实力中国网站。
【使用工具】嗅探ForeSpider数据前采集系统,免费下载:
ForeSpider免费版下载地址
【入口网址】
/商务/
[采集内容]
采集站长电商分类中文章的数据,采集字段:标题、发布时间、来源平台、文字内容等
[采集效果]如下图:
l想法分析
配置思路概览:
l配置步骤
1.新建采集任务
选择[采集配置],点击任务列表右上方的[+]号新建采集任务,在采集入口地址填写[采集地址]框,[任务名称]可以自定义,点击下一步。
2.获取翻页链接
①在浏览器上打开页面,翻页,发现是瀑布流翻页。点击F12打开NetWork界面,继续翻页,找到翻页请求如下图:
2 观察这些翻页请求的header,发现header中的请求链接和path参数随着翻页次数的变化而变化,如下图所示:
③编写脚本,拼接链接,具体脚本如下:
脚本文本:
<p>url u;
for(i=0;i