淘宝爬虫采集中小型卖家的商品详情页数据可视化分析
优采云 发布时间: 2022-07-05 01:04淘宝爬虫采集中小型卖家的商品详情页数据可视化分析
文章采集接口,并且需要文章和采集标题匹配,方法很多,有新浪微博爬虫,淘宝爬虫,采集中小型卖家的商品,一般来说,需要让我们的数据可视化分析商品详情页的数据变化,这是个比较麻烦的事,因为淘宝的产品详情页有百万字,每次都去登陆去查,估计就得php5.5及以上的程序,而且有个问题就是,有些网站可能是上一次销售时候留下的采集链接,那么很容易返回了账号和密码信息,而这个信息被淘宝后台盗用了,导致在淘宝后台上班,这是非常危险的,那么有没有比较便捷的办法呢?其实有很多,我这里用的是threejs+react开发,还可以自定义爬取结构,改变url和文章数量,处理返回链接安全性啥的,实现之后,github链接:,我们来一起搞起来,如下图所示,我们需要获取的是采集该商品在该商品详情页的购买信息,因为商品的信息要填的字段实在太多,直接去百度的txt文档的话,怕看不全,所以采用的是对应的react代码实现。
按照代码总共分为三步,首先是读取淘宝中小型卖家商品详情页的链接信息(直接下载源码就可以看到,把这个代码,或者引用的excel文件拷贝到浏览器中就可以读取),然后是读取react的代码,再来读取淘宝中小型卖家商品详情页的内容,最后就是写一个采集器,把这个爬取的商品详情页的数据,全部整理为excel表格(可以根据实际需要调整格式)。
先来看下代码:这里要注意,如果数据量比较大,像上图采集不下那么多条数据,基本上就用不了代码,可以用utils文件直接读取数据,获取的过程需要设置字段名,获取的数据也很简单,就是string类型,我设置了他们的元素样式。因为数据比较多,我就保存在了axios中,方便以后自动处理。而关于爬取逻辑,基本就是根据我们接口查询该商品的历史销售数据来做信息筛选,而接口数据是在淘宝api中获取的,那么我们就可以根据淘宝api获取的历史购买数据,获取淘宝中小型卖家的历史销售信息,以及数据的差异变化来匹配信息,我就拿出以前写过的代码用threejs开发。
具体代码可以直接去github下载,axios中使用代码整理的api链接,如下:,其实现的这个爬取淘宝中小型卖家商品详情页详情页信息的代码,和那个淘宝店铺商品数据筛选的差不多,区别是我们除了针对中小型卖家,还做了扩展出来,方便我们以后数据的下载或者分析。然后我们采用我刚才写的代码,循环爬取中小型卖家商品信息,每个商品就获取10个数据,然后来分析数据页和dom的变化关系,获取全部数据后,通过时间来筛选最终dom中的内容即可,这样,无论最终是否下载这个数据,都是可以。