文章采集程序采集商品详情页产品图片,添加数据过滤条件

优采云 发布时间: 2021-03-23 07:01

  文章采集程序采集商品详情页产品图片,添加数据过滤条件

  文章采集程序采集商品详情页产品图片,比如图片中的一张商品图,每个产品图片只采集5张,实现30个商品图片同时采集。请求数据后,修改采集配置,添加数据过滤条件,再采集数据,步骤非常繁琐,为了大家方便,采用最优方案就是把单个采集过程拆分下来,所有步骤分解成多个步骤,这样大家统一编写代码,统一调用,后续很少添加新功能。

  可能是因为采集时间较长,导致爬虫返回的数据有500多条,大家估计经常会有个疑问:这些数据是从哪里返回到爬虫手中的?为了更清楚的说明数据过滤条件是如何工作的,我先贴下图片,找到爬虫。大家看到的图片是最原始数据,新图片还有,大家可以想想,采集的数据都是按照某个条件采集返回的,那么我们有三个条件,

  1)最近一天,

  2)下一个元素是否属于产品标题

  3)是否有手机链接,那么我们先把每天爬取10个商品按照30个商品来分析,每一个商品可能有多条数据,大家可以对照图片中的商品列表看一下数据,每天采集10个商品,30个数据就有1000条数据。30个商品中,有大量的以商品标题,类目名称命名的数据,我们看到条数最多的一个是厨具,有6个商品标题,3个商品类目,其实也可以分解成6个商品标题,但实际爬取数据中,一般只有8个。

  每个数据点的条数随着你爬取的商品不同而不同,是因为商品标题字符长度变化引起的,每个商品标题有1000条数据,但实际爬取数据中一般不会超过这个数量,所以爬取一个商品最多能采集10条数据。之所以说总量有2500条数据是因为有10条链接到了baidu手机搜索页面。我们按照商品序号排序,显示出你可能感兴趣的商品,数据都采集好了,下面我们实验一下,看看是否可以给图片过滤条件添加效果。

  我们手机搜索a-b东西,想看下他们的价格,平均价格是35元,在图片中,先按照类目名称排序,搜索"普通3c",排名靠前的结果为:图片效果:实验结果:我们看到图片中"office笔记本软件"这一列的价格大概是11元左右,所以过滤条件添加效果可以。设置过滤条件:总共15条,条数太多了,1.5万多条数据我们全量采集下来要40多天,对于每天爬取10个商品,30个数据,返回500多条数据,已经足够我们爬取30天,就像这样。

  因为是经常翻页,我们使用vlookup公式匹配不同的时间段,比如月份,月份随机择时采集,可以用来采集20天左右的数据,实验结果:我们数据爬取完毕,通过vlookup匹配到十天内的数据,然后添加过滤条件返回就可以获取一整天的数据了。总结:大家可以想想看,条件选择性最好的就是年份,例如,搜索2012年,图片那么多,一。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线