免规则采集器列表算法(图片比较不好查找通过点击fiddler“inNotepad”提取出来进行比较(图) )

优采云 发布时间: 2022-02-25 00:06

  免规则采集器列表算法(图片比较不好查找通过点击fiddler“inNotepad”提取出来进行比较(图)

)

  当你采集 列出分页内容时,你会发现一些列表分页。当您点击第二页或第三页(或下一页)时,列表的页面信息会发生变化,但浏览器上的 URL 不会发生变化。改变。这种信息在页面上是看不到的。一般需要通过fiddler抓包工具,即优采云采集器post paging采集进行抓包分析。

  下面的网址用来测试这个网址有3个页面,链接都是一样的。

  1、首先通过源码找到这个页面的开始标签和结束标签,页面的开始是1/3页,结束是下一页>到第一页。源代码如下:

  

  

  

  2、打开fiddler抓包工具,分别点击第2页和第3页,看看得到了什么信息。获取页面后,按键盘F12暂停,提取信息。否则fiddler会继续爬取信息,如果信息太多,很难找到。

  

  

  由于图片不好找,点击fiddler上的“在记事本中查看”将其提取出来,对比如下:

  ec_p=2&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

  ec_p=3&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

  从上面我们可以知道ec_p的值是分页。优采云采集设置如下:

  

  注意:设置好以上规则后,记得点击保存。有些页面有id=等参数(有些会变,通过源码查),一般是【POST随机值x】,这里不需要填写。

  Fiddler下载地址(中文版无需升级)最终链接测试采集如下

  

  本文由茂莱编辑发布,转载请注明优采云采集器:网站分页网址不变获取规则!

  报酬

  [茂莱]

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线