如何用优采云采集器来获取法律法规数据(图)采集
优采云 发布时间: 2021-08-27 18:21如何用优采云采集器来获取法律法规数据(图)采集
采集URL:
/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&
采集Target:1. 遍历爬取列表page2.Content page采集Field:Title, content, 关键词language, source 使用工具:1. 优采云 采集器2. Fidder 抓包软件采集 成就:
接下来我们看看如何使用优采云采集器获取法律法规数据。
第一步:打开优采云官网,下载最新版本优采云采集器并安装
第2步:打开软件中的列表页面,使用fiddler抓包获取数据包并分析,得到实际数据请求(多抓几页对比)
通过分析可以看出分页加载方式为POST请求。 POST表单中有变量控制分页,内容页地址的格式在源码中一目了然。
第三步:在采集器新建一个规则,根据Fiddler抓到的信息编写列表页面的获取规则,在起始地址栏填写POST请求地址
POST分页需要设置为高级模式,分页设置选择POST
填写POST表单,将分页控制参数替换为[page]变量,然后设置分页范围
第四步:分析源码后,在URL获取选项中设置内容页地址获取规则,测试采集List
将抓包得到的头部信息依次填入HTTP请求设置中
第五步:完成以上所有设置后,就可以测试运行列表的获取了。获取成功后可以继续制作内容采集Rules
第六步:在浏览器中打开一个内容页面,找到需要采集的字段的位置,以及与源码的对应关系
找到数据的前后位置,然后可以通过前后截取或常规提取的方式获取内容。
第七步:由于“关键词语”字段有多个值,建议使用循环获取,以下是处理方法
设置关联多个页面并保存
从多个关联页面循环提取
<p>总结:使用Fiddler抓包分析数据请求信息,按要求填写相应设置,内容字段编写获取规则。注:1.这个网站采集有封IP的问题,需要长时间使用采集,2.Cookie也有一段时间后失效的问题