文章一键采集(跨境电商批量采集话题之过好几次鼓捣)
优采云 发布时间: 2022-02-13 08:09文章一键采集(跨境电商批量采集话题之过好几次鼓捣)
关于跨境电商批次采集的话题,我在之前的博客中已经讲过好几次了。这种批量采集方法由于效率高、暴力性强,可以轻松将一个平台上的产品批量下架,然后摆弄,再批量上传到另一个平台。批量采集应用广泛,不仅用于采集产品信息,还用于批量提交和更新数据,结合一些特定环境可以达到很多意想不到的效果。
批处理采集并不是什么神秘的技术,有很多方法可以实现。对于程序员来说,Python 是编写爬虫的首选方式,灵活而强大。但是你不能指望每个人都精通 Python 编程语言。因此,更多的方式是通过第三方软件来实现。
这不是一个好话题,让我们去做吧。我想尝试写一个跨境电商批次采集系列教程,每个文章都会给一个跨境电商平台做一个批次采集示范。毕竟亚马逊、ebay、速卖通、wish、lazada、cdiscount、tophatter、Newegg、Shopee、Walmart、Tradera、Etsy、Joom等等十几个平台,够我折腾一阵子了。
考虑到大部分卖家缺乏网络技术,估计用Python演示会比较混乱。因此,本系列教程将使用第三方采集软件-优采云采集器的方法做一个demo。批次采集的演讲将以图片、文字和视频的形式进行。图片和手稿将向所有读者开放阅读和学习,视频将作为补充内容放置在会员区,对付费会员开放。
明天是 4 月 1 日,Tophatter 将从 4 月 1 日开始实施卖家标准计划和畅销计划。那么,让我们从 Tophatter 开始,详细解释如何在 Tophatter 上批量 采集 产品。
一、分析
打开tophatter官方网站,查找产品规则和特性。为了实现批量采集,通常需要先找到显示商品的列表页面,然后通过该页面进入商品详情页面。
点击红色箭头指向的主页上的BROWSE链接,进入对应的分类页面,这里就是我们想要的产品列表页面。
在产品列表页面,右击-点击查看源代码,你会找到网页的源代码。但是从上到下仔细阅读,你会发现采集的源码中并没有与产品相关的文字内容。
是的,通常大部分网站会直接在源码中直接展示产品信息,这种情况下,我们只需要截取前后代码中需要的内容即可。但是,技术在不断更新和日新月异。目前,越来越多的网站已经放弃了这种传统的网站生产方式,更多的是将数据存储在Json中,通过ajax异步加载。实现,不直接显示在源代码中。这种数据抓取方法有点复杂,但还是有办法抓住它的。
打开您的 Chrome 浏览器,如果您没有,请安装一个。这里需要用到Chrome的开发者工具,按F12,刷新页面,观察XHR,你会发现一个可疑的JSON数据包链接,复制链接地址,浏览在浏览器中打开这个链接,你会看到类似下图的东西,这就是我们需要的产品列表页面的内容。
一堆乱码,看不懂也没关系,乱七八糟的我也看不懂,把这些内容复制粘贴到这里,格式化查看一下,就可以看到了下列:
这要清楚得多。这是一个产品的字段信息,包括id、图片、长、宽、高、价格、等级、折扣等信息。经过仔细检查,我们发现没有收录我们想要的产品标题和描述信息。
我们继续找模式,点击列表中的其中一款产品,可以进入产品页面,观察XHR,会看到如下图的json数据包链接,同上步骤,打开链接在浏览器,将内容复制到格式化的查看产品详情。
很全,发货、注意、描述、变体信息都有。接下来,获取信息。
二、抢
这只是为了演示,所以,只有采集其中一个字段,按照这个方法,以此类推,就可以采集得到完整的数据信息。
打开 优采云采集器 并创建一个新任务。在开始之前,我们还需要分析一下列表页和商品页之间的联系。
列表:
看下面的per_page=50和page=2,多找几个,你会发现per_page=50是固定的,page=2会在鼠标滚动时加1,字面意思per_page意思是每50页显示一次,page指当前加载的页数。这很容易理解。如果我想爬取该分类下所有100页的产品,只需将page-2改为100,然后,100页*50 = -5000,这样,就可以得到5000个产品。
内容页:
当然,我们要抓取的是商品详情,所以找出列表页和文本页的关系,仔细分析会发现这个id就是它们之间的关系节点。那么我们就可以从这里开始爬取信息了。
如上图,将page=后面的数字替换为【地址参数】,在后面的数字变换中填写你要抓取的页面。这些列表页面现在在预览中可见。接下来,继续在列表页面内容中寻找模式。
发现了什么?这个 id 似乎经常出现。例如: {"id":10262283,"product_parent_id" 这种情况下,我们可以通过变量替换把这个id拼接到内容页面,如下图;
点击网址采集进行测试,看看效果;看下图,果然成功采集到达了内容页面。
下一步是爬取内容页面的详细信息。
有两种方法可以抓取内容。第一个和上面一样,前后拦截,第二个是更智能的json方法。
在内容采集规则页面新建title字段,按照上面的步骤,点击json提取,点击select,在url中输入内容页面json链接地址,或者将json文本粘贴到json文本中,点击标题,当然。至此,我们成功抓取到了titletitle信息。
好吧,尝试运行 采集。
果然。最后,在简单的设置下保存文件。
开始采集…。不要太激进,适当放慢采集。
采集 到了。文件发布后,可以在桌面上找到数据文件。至此,采集 工作全部完成。
总结:
这个演示示例,只有 采集title。您可以采集以同样的方式下载描述、价格、图片、评级等所有信息。我在之前的文章中反复提到过,谨慎使用这种方法,尤其是如果你没有比较完善的产品管理体系,千万不要乱来。这种方法暴力有效,但不宜滥用,以免被烫伤。批处理 采集 不是高级技术。能做到的卖家也能做到。这不是黑科技。小心被骗。
[框样式=“信息”]
在线观看此内容的视频讲解:(立即订阅——借鉴晨飞博客跨境电商经验分享)
[/盒子]