如何用优采云采集器来获取法律法规数据(图)采集

优采云 发布时间: 2021-08-27 18:21

  如何用优采云采集器来获取法律法规数据(图)采集

  采集URL:

  /cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&

  

  采集Target:1. 遍历爬取列表page2.Content page采集Field:Title, content, 关键词language, source 使用工具:1. 优采云 采集器2. Fidder 抓包软件采集 成就:

  

  

  

  接下来我们看看如何使用优采云采集器获取法律法规数据。

  第一步:打开优采云官网,下载最新版本优采云采集器并安装

  

  第2步:打开软件中的列表页面,使用fiddler抓包获取数据包并分析,得到实际数据请求(多抓几页对比)

  

  通过分析可以看出分页加载方式为POST请求。 POST表单中有变量控制分页,内容页地址的格式在源码中一目了然。

  第三步:在采集器新建一个规则,根据Fiddler抓到的信息编写列表页面的获取规则,在起始地址栏填写POST请求地址

  

  POST分页需要设置为高级模式,分页设置选择POST

  

  填写POST表单,将分页控制参数替换为[page]变量,然后设置分页范围

  

  第四步:分析源码后,在URL获取选项中设置内容页地址获取规则,测试采集List

  

  

  将抓包得到的头部信息依次填入HTTP请求设置中

  

  第五步:完成以上所有设置后,就可以测试运行列表的获取了。获取成功后可以继续制作内容采集Rules

  

  第六步:在浏览器中打开一个内容页面,找到需要采集的字段的位置,以及与源码的对应关系

  

  

  

  找到数据的前后位置,然后可以通过前后截取或常规提取的方式获取内容。

  

  第七步:由于“关键词语”字段有多个值,建议使用循环获取,以下是处理方法

  设置关联多个页面并保存

  

  从多个关联页面循环提取

  

  

<p>总结:使用Fiddler抓包分析数据请求信息,按要求填写相应设置,内容字段编写获取规则。注:1.这个网站采集有封IP的问题,需要长时间使用采集,2.Cookie也有一段时间后失效的问题

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线