优采云采集器采集存在封IP的问题需要使用代理后才能长时间
优采云 发布时间: 2021-08-27 18:23优采云采集器采集存在封IP的问题需要使用代理后才能长时间
采集URL:
采集Target:1.遍历爬取列表页的内容页地址2.内容页采集字段:标题、内容、关键词语言、来源使用工具:1.优采云 采集器2.Fidder 抓包软件采集 成就:
接下来我们看看如何使用优采云采集器获取法律法规数据。
第一步:打开优采云官网,下载最新版本优采云采集器并安装
第2步:打开软件中的列表页面,使用fiddler抓包获取数据包并分析,得到实际数据请求(多抓几页对比)
通过分析可以看出分页加载方式为POST请求。 POST表单中有变量控制分页,内容页地址的格式在源码中一目了然。
第三步:在采集器新建一个规则,根据Fiddler抓到的信息编写列表页面的获取规则,在起始地址栏填写POST请求地址
填写POST表单,将分页控制参数替换为[page]变量,然后设置分页范围
第四步:分析源码后,在URL获取选项中设置内容页地址获取规则,测试采集List
将抓包得到的头部信息依次填入HTTP请求设置中
第五步:完成以上所有设置后,就可以测试运行列表的获取了。获取成功后可以继续制作内容采集Rules
第六步:在浏览器中打开一个内容页面,找到需要采集的字段的位置,以及与源码的对应关系
找到数据的前后位置,然后可以通过前后截取或常规提取的方式获取内容。
第七步:由于“关键词语”字段有多个值,建议使用循环获取,以下是处理方法
设置关联多个页面并保存
从多个关联页面循环提取
<p>总结:使用Fiddler抓包分析数据请求信息,按要求填写相应设置,内容字段编写获取规则。注:1.这个网站采集有封IP的问题,需要长时间使用采集,2.Cookie也有一段时间后失效的问题