文章一键采集(跨境电商批量采集话题之过好几次鼓捣)

优采云发布时间: 2022-02-13 08:09

　　关于跨境电商批次采集的话题，我在之前的博客中已经讲过好几次了。这种批量采集方法由于效率高、暴力性强，可以轻松将一个平台上的产品批量下架，然后摆弄，再批量上传到另一个平台。批量采集应用广泛，不仅用于采集产品信息，还用于批量提交和更新数据，结合一些特定环境可以达到很多意想不到的效果。

　　批处理采集并不是什么神秘的技术，有很多方法可以实现。对于程序员来说，Python 是编写爬虫的首选方式，灵活而强大。但是你不能指望每个人都精通 Python 编程语言。因此，更多的方式是通过第三方软件来实现。

　　这不是一个好话题，让我们去做吧。我想尝试写一个跨境电商批次采集系列教程，每个文章都会给一个跨境电商平台做一个批次采集示范。毕竟亚马逊、ebay、速卖通、wish、lazada、cdiscount、tophatter、Newegg、Shopee、Walmart、Tradera、Etsy、Joom等等十几个平台，够我折腾一阵子了。

　　考虑到大部分卖家缺乏网络技术，估计用Python演示会比较混乱。因此，本系列教程将使用第三方采集软件-优采云采集器的方法做一个demo。批次采集的演讲将以图片、文字和视频的形式进行。图片和手稿将向所有读者开放阅读和学习，视频将作为补充内容放置在会员区，对付费会员开放。

　　明天是 4 月 1 日，Tophatter 将从 4 月 1 日开始实施卖家标准计划和畅销计划。那么，让我们从 Tophatter 开始，详细解释如何在 Tophatter 上批量采集产品。

　　一、分析

　　打开tophatter官方网站，查找产品规则和特性。为了实现批量采集，通常需要先找到显示商品的列表页面，然后通过该页面进入商品详情页面。

　　点击红色箭头指向的主页上的BROWSE链接，进入对应的分类页面，这里就是我们想要的产品列表页面。

　　在产品列表页面，右击-点击查看源代码，你会找到网页的源代码。但是从上到下仔细阅读，你会发现采集的源码中并没有与产品相关的文字内容。

　　是的，通常大部分网站会直接在源码中直接展示产品信息，这种情况下，我们只需要截取前后代码中需要的内容即可。但是，技术在不断更新和日新月异。目前，越来越多的网站已经放弃了这种传统的网站生产方式，更多的是将数据存储在Json中，通过ajax异步加载。实现，不直接显示在源代码中。这种数据抓取方法有点复杂，但还是有办法抓住它的。

　　打开您的 Chrome 浏览器，如果您没有，请安装一个。这里需要用到Chrome的开发者工具，按F12，刷新页面，观察XHR，你会发现一个可疑的JSON数据包链接，复制链接地址，浏览在浏览器中打开这个链接，你会看到类似下图的东西，这就是我们需要的产品列表页面的内容。

　　一堆乱码，看不懂也没关系，乱七八糟的我也看不懂，把这些内容复制粘贴到这里，格式化查看一下，就可以看到了下列：

　　这要清楚得多。这是一个产品的字段信息，包括id、图片、长、宽、高、价格、等级、折扣等信息。经过仔细检查，我们发现没有收录我们想要的产品标题和描述信息。

　　我们继续找模式，点击列表中的其中一款产品，可以进入产品页面，观察XHR，会看到如下图的json数据包链接，同上步骤，打开链接在浏览器，将内容复制到格式化的查看产品详情。

　　很全，发货、注意、描述、变体信息都有。接下来，获取信息。

　　二、抢

　　这只是为了演示，所以，只有采集其中一个字段，按照这个方法，以此类推，就可以采集得到完整的数据信息。

　　打开优采云采集器并创建一个新任务。在开始之前，我们还需要分析一下列表页和商品页之间的联系。

　　列表：

　　看下面的per_page=50和page=2，多找几个，你会发现per_page=50是固定的，page=2会在鼠标滚动时加1，字面意思per_page意思是每50页显示一次，page指当前加载的页数。这很容易理解。如果我想爬取该分类下所有100页的产品，只需将page-2改为100，然后，100页*50 = -5000，这样，就可以得到5000个产品。

　　内容页：

　　当然，我们要抓取的是商品详情，所以找出列表页和文本页的关系，仔细分析会发现这个id就是它们之间的关系节点。那么我们就可以从这里开始爬取信息了。

　　如上图，将page=后面的数字替换为【地址参数】，在后面的数字变换中填写你要抓取的页面。这些列表页面现在在预览中可见。接下来，继续在列表页面内容中寻找模式。

　　发现了什么？这个 id 似乎经常出现。例如： {"id":10262283,"product_parent_id" 这种情况下，我们可以通过变量替换把这个id拼接到内容页面，如下图；

　　点击网址采集进行测试，看看效果；看下图，果然成功采集到达了内容页面。

　　下一步是爬取内容页面的详细信息。

　　有两种方法可以抓取内容。第一个和上面一样，前后拦截，第二个是更智能的json方法。

　　在内容采集规则页面新建title字段，按照上面的步骤，点击json提取，点击select，在url中输入内容页面json链接地址，或者将json文本粘贴到json文本中，点击标题，当然。至此，我们成功抓取到了titletitle信息。

　　好吧，尝试运行采集。

　　果然。最后，在简单的设置下保存文件。

　　开始采集…。不要太激进，适当放慢采集。

　　采集到了。文件发布后，可以在桌面上找到数据文件。至此，采集工作全部完成。

　　总结：

　　这个演示示例，只有采集title。您可以采集以同样的方式下载描述、价格、图片、评级等所有信息。我在之前的文章中反复提到过，谨慎使用这种方法，尤其是如果你没有比较完善的产品管理体系，千万不要乱来。这种方法暴力有效，但不宜滥用，以免被烫伤。批处理采集不是高级技术。能做到的卖家也能做到。这不是黑科技。小心被骗。

　　[框样式=“信息”]

　　在线观看此内容的视频讲解：（立即订阅——借鉴晨飞博客跨境电商经验分享）

　　[/盒子]

0

2022-02-13

文章一键采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章一键采集(跨境电商批量采集话题之过好几次鼓捣)

0 个评论

发起人

AI时代内容工厂

文章一键采集(跨境电商批量采集话题之过好几次鼓捣)

0 个评论

发起人

相关问题