推荐文章:【从零开始学爬虫】采集站长之家文章数据

优采云 发布时间: 2022-09-25 02:13

  推荐文章:【从零开始学爬虫】采集站长之家文章数据

  l 采集网站

  【场景描述】采集站长之家文章资料。

  [来源网站简介]

  站长之家(中国站长站)提供全面的站长资讯、源代码程序下载、海量建站资料、强大的搜索优化辅助、网络产品设计和运营理念、一站式网络解决方案,我们一直致力于十年实力中国网站。

  【使用工具】嗅探ForeSpider数据前采集系统,免费下载:

  ForeSpider免费版下载地址

  【入口网址】

  /商务/

  [采集内容]

  采集站长电商分类中文章的数据,采集字段:标题、发布时间、来源平台、文字内容等

  [采集效果]如下图:

  l想法分析

  配置思路概览:

  l配置步骤

  1.新建采集任务

  选择[采集配置],点击任务列表右上方的[+]号新建采集任务,在采集入口地址填写[采集地址]框,[任务名称]可以自定义,点击下一步。

  2.获取翻页链接

  ①在浏览器上打开页面,翻页,发现是瀑布流翻页。点击F12打开NetWork界面,继续翻页,找到翻页请求如下图:

  2 观察这些翻页请求的header,发现header中的请求链接和path参数随着翻页次数的变化而变化,如下图所示:

  ③编写脚本,拼接链接,具体脚本如下:

  脚本文本:

<p>url u;

for(i=0;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线