如何批量抓取Tophatter平台的产品数据,第一次上大部分怎么做?

优采云 发布时间: 2021-08-18 05:22

  如何批量抓取Tophatter平台的产品数据,第一次上大部分怎么做?

  上次讲了如何批量抓取Tophatter平台的产品数据。第一次接触这个套路的读者可能不太了解抓取的实现过程。也许它有帮助。掌握batch采集的技巧,我们可以获得很多有价值的数据,比如抓取买家最热销的产品,产品的平均售价,产品的评价状态。结合这些详细信息,深入挖掘,开发目标产品。当然,大多数中国卖家在 Tophatter 上都可以在 1688 上找到他们的大部分产品。您也可以将平台上的产品快速转移到其他平台。早年的暴力店就是这么来的。

  

  这一次,我们将抢Lazada平台上的产品。如果你是跨境电商行业的老卖家,你或多或少都知道一些平台对于SKU数量的要求的套路。应该说,在大多数平台上,开新店的时候,客户经理至少会要求列出多少SKU,越多越好,越多越好。很多新卖家都在纠结这300-500个SKU,因为原来的方式是手动编辑上传吐血待编辑。所以,我们还是得动脑筋,想办法,找捷径。 Lazada 就是这样,甚至还多次举办产品上传大赛。当然,SKU的数量越多,卖家的订单数量也不一定越多,但可能会让Lazada看起来很大,可以卖个好价钱。因此,我认为 Lazada 以 20 亿美元的价格卖给了阿里巴巴,也许你有我的功劳。废话少说,开始采集。

  一、analysis

  直接采集某卖家店铺SKU做示范,骂死我了。这次我来自采集 类别。打开网站,在Categories中找到一个分类,以Women Bags为例进行演示。进入

  第一步是分析列表页的规则,找到列表页和内容页的关系。因为最终目标是采集product 内容页上的数据,我们无法直接获取到内容页访问地址,所以列表页的作用就是找到内容页访问地址。

  和往常一样,打开Chrome浏览器,按F12,观察XHR栏的变化。我们点击列表页面底部的页码,每次点击页码,都会在XHR上看到一个json数据包链接。

  

  按照之前的方法,在浏览器中打开json数据包链接,一堆乱码,同样的方法,把这些数据粘贴到格式中,找到规则。我们尝试提出一个内容页面链接地址并批量搜索,发现多达235条记录,但仔细计算,下一页列表中只有40个产品。显然这不是我们需要的内容。这样查找对应的内容页的链接地址好像比较麻烦。让我们换个方式。

  直接打开这个页面的源代码,点击鼠标右键,查看页面的源代码,继续找链接。找到一个内容页链接地址,复制到搜索中,可以看到下图。

  

  看起来有点眉毛。我们继续缩小范围,终于找到了这段代码:

  productUrl”:”//.my/products/bagsociety-mg-saffiano-effect-shell-bag-tote-bag-crossbody-sling-bag-black-i135436360-s153414723.html?search=1

  二、采集

  我们会测试它是否满足要求并打开优采云采集器。创建一个新任务并将其命名为 lazada。在地址格式栏填写列表页的地址,page=后面的数字是一个变量,这里换成address参数,因为这个分类一共有102页,如果要全部采集,写102.

  

  在手动设置规则获取栏填写:

  网址”:”//.my/products/bagsociety-mg-saffiano-effect-shell-bag-tote-bag-crossbody-sling-bag-black-i135436360-s153414723.html?search=1

  中间的链接地址是一个变量,用[参数]代替。

  获取网址":"[参数]?search=1

  拼接地址获取[参数1]

  

  我们测试了能否成功获取到内容页地址,结果如下图所示。每页 40 个链接正是我们所需要的。

  

  接下来就可以开始采集product内容页面的内容了。这里还是以采集产品title为例,其他字段数据依此类推。复制商品标题的文字内容,在源码中搜索,得到下图找到规则。

  

  在content采集规则中新建一个字段,我们将使用前后截取的方法获取标题文本。绿色 (*) 是通配符,可以替换任何文本。

  

  测试成功。最后,开始批处理采集。

  

  在桌面找到数据文件,打开,所有的数据都已经保存在里面了。

  

  至此,Lazada平台的产品批次采集任务已经完成。参考这个demo,还可以完成采集的尺寸、重量、图片、描述、亮点等信息。我觉得这样很容易处理平台对SKU数量的要求。

  同一句话,批量采集不是黑科技,准确的说,这是从事跨境电商的基本功。数据是基础,分析处理是方法。 采集大量数据给你,也许这是一对垃圾,但如果结合分析处理,巧妙过滤提取有价值的内容,它可能是热门产品,也可能是产品分析改进需求。值得一试。 [box style="info"]在线观看本文内容及视频讲解:(立即订阅-学习晨航博客,分享跨境电商心得)

  [/box]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线