免规则采集器列表算法(优采云采集器采集信息采集规则*敏*感*词*(图))
优采云 发布时间: 2022-01-01 16:21免规则采集器列表算法(优采云采集器采集信息采集规则*敏*感*词*(图))
优采云采集器采集信息采集规则制定教程_爬虫软件技术和爬虫软件网络数据采集器门户
图 160S
2018 年 10 月 25 日
优采云采集器采集信息采集规则*敏*感*词*以北京地区酒店信息为例,入口页面:
点击页面发现这不是真正的数据列表页面。需要通过抓包软件抓包才能找到真正的列表URL(抓包之前说过了,今天这里就不赘述了),通过抓包获取真相。网址是:%E5%8C%97%E4%BA%AC
优采云采集器 URL中的page=1是列表页的分页参数。根据分页规则,采集list URL如图:
下一步是获取内容页面的 URL。通过源码分析,发现源码中没有URL,但是可以看到一个ID值,如图:
通过点击内容页面,我们发现内容URL就是URL中的数字,大概就是ID值。把源码中的ID值替换成这个URL,发现是酒店详情页,所以我们只需要采集这个ID值就够了。这个获取规则也很简单,以{"id":开头,以,结尾,就可以获取到ID值,但仅凭ID值是不够的。这时候就要拼接完整的内容URL,然后像这样拼接[参数1].html,如图:
通过优采云采集器URL测试,可以成功采集到内容URL
酒店基本信息在内容页源码中,规则比较简单,这里略过,最后来一张采集动态图
相关标签