免规则采集器列表算法(优采云采集器采集信息采集规则敏感词(图))

优采云发布时间: 2022-01-01 16:21

　　免规则采集器列表算法(优采云采集器采集信息采集规则*敏*感*词*(图))

　　优采云采集器采集信息采集规则制定教程_爬虫软件技术和爬虫软件网络数据采集器门户

　　图 160S

　　2018 年 10 月 25 日

　　优采云采集器采集信息采集规则*敏*感*词*以北京地区酒店信息为例，入口页面：

　　点击页面发现这不是真正的数据列表页面。需要通过抓包软件抓包才能找到真正的列表URL（抓包之前说过了，今天这里就不赘述了），通过抓包获取真相。网址是：%E5%8C%97%E4%BA%AC

　　优采云采集器 URL中的page=1是列表页的分页参数。根据分页规则，采集list URL如图：

　　下一步是获取内容页面的 URL。通过源码分析，发现源码中没有URL，但是可以看到一个ID值，如图：

　　通过点击内容页面，我们发现内容URL就是URL中的数字，大概就是ID值。把源码中的ID值替换成这个URL，发现是酒店详情页，所以我们只需要采集这个ID值就够了。这个获取规则也很简单，以{"id":开头，以,结尾，就可以获取到ID值，但仅凭ID值是不够的。这时候就要拼接完整的内容URL，然后像这样拼接[参数1].html，如图：

　　通过优采云采集器URL测试，可以成功采集到内容URL

　　酒店基本信息在内容页源码中，规则比较简单，这里略过，最后来一张采集动态图

　　相关标签

0

2022-01-01

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免规则采集器列表算法(优采云采集器采集信息采集规则敏感词(图))

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法(优采云采集器采集信息采集规则*敏*感*词*(图))

0 个评论

发起人

相关问题

免规则采集器列表算法(优采云采集器采集信息采集规则敏感词(图))