解决方案:爬虫试用 | 京东商品详情搜索采集助手 – 一键批量采集下载商品详情

优采云 发布时间: 2022-10-22 01:14

  解决方案:爬虫试用 | 京东商品详情搜索采集助手 – 一键批量采集下载商品详情

  今天给大家分享的是一款电商辅助爬虫工具:京东商品详情搜索采集助手

  京东搜索采集产品详情助手使用说明(官网:):

  功能:输入关键词搜索批次采集商品详情,如标题、对应sku、sku对应价格、主图、详细图、原价、到货价、折扣、店铺名称、店铺id、商店评级、*敏*感*词*等。

  我们先来看看采集下载导出的数据表:

  导出的数据表

  我们可以看到,上面的字段都呈现在了表格中,尤其是不同sku的名称和对应的价格,还有原价,也就是划线的价格和打折后的实际价格也是真实计算导出的抓的时候,这个功能很不错。

  软件目录:

  软件目录

  下载完成后打开主程序,根据提示将对应的关键词替换为是否下载图片和复制cookie,回车执行:

  主程序界面

  

  然后我们可以看到运行界面,有图片下载提示和关键词沙发对应产品和sku价格等信息。如下所示。

  下载界面

  可以看出这个程序很傻,只要我们设置了关键词和要下载的页数,剩下的都是全自动的。

  然后我们可以在软件目录中看到对应日期的文件夹,我们打开文件夹

  然后可以看到我们的采集的数据已经自动导出到表了。打开表格,可以看到上表中的所有字段。

  我们只是设置了下载图像。在这个文件夹下,我们看到一个带有 img 的子文件夹。我们打开看看图片是否下载成功。

  OK,我们可以看到刚才下载的产品的图片已经下载到这里了。让我们打开几个,看看清晰度如何?

  高清图片同步下载

  完全没有问题,都是高清图片。

  

  很多做电商的朋友都苦于没有一个既傻又简单的电商辅助工具。今天为大家介绍这款京东产品详情采集助手可以说是目前市场上最简单最傻的电商辅助工具。,非常值得大家入手。

  感兴趣的朋友可以到以下链接下载试用体验一下。

  京东商品搜索采集详情助手-通过关键词采集商品详情搜索批次-长按二维码访问。

  附:以下是软件使用说明:

  1.所有下载的内容都将导出到本软件的同一目录下。使用前请将软件目录中的所有文件复制并保存到硬盘上一个有空间长期保存的目录中。

  2.按照界面说明一步一步执行。如果软件崩溃,请参考:,解决。

  3、翻页、图片下载、sku价格获取等设置,请打开“商品采集助手配置文件”进行配置。

  软件操作步骤:

  1.搜索到的关键词和每个关键词要搜索的页数,请每行输入一个,输入到“关键词和页数.txt”在软件目录中,每页30个商品,最大页数为200页,间隔符号为逗号。

  2、如需下载图片,请修改“商品采集助手配置文件.ini”,修改后保存。

  3、按照提示,打开京东任意产品页面,复制cookie,替换目录下“jd_cookie.txt”中的所有内容。

  确认设置OK后,回车继续运行软件。

  事实:自动输入关键词采集搜索结果信息—以人民网搜索为例

  •采集内容:新闻链接、标题、摘要、时间

  在下面输入详细的分步说明。

  1.定义一级任务:设置动作

  1.1 打开网页

  打开即搜客数据管理器,输入人民网搜索网址,加载网页。点击浏览器左上角的“+”,进入任务定义状态。

  1.2 只需将内容标记为 采集

  一级任务虽然没有做实际的爬取工作,但是为了让爬虫正常工作,任务中至少需要有一个爬取内容,而我们在网页上使用“新闻”二字作为爬取内容.

  双击“新闻”,输入字段名和表名,如下图。(直观标注的详细操作请参考《采集网页资料》)

  1.3 设置动作

  这里我们重点关注第一个“输入”动作,以及第二个动作“点击”。

  1.3.1 第一个动作:输入动作

  在工作台上点击“4”进入“设置动作”,点击“新建”按钮创建新动作。

  动作后执行:目标任务为二级任务。本例中二级任务的名称为:Tutorial_People's Network Search_Crawl

  动作类型:第一个动作是输入,所以选择输入

  动作名称:为动作命名以供稍后检查,例如:输入

  交互位置:这是操作的难点。找到动作位置的xpath,复制到这里。这样爬虫就知道去哪里了。如何找到动作的xpath?

  我们现在要做的就是输入action,交互位置是搜索输入框,在网页上点击,下面的DOM窗口对应一个节点。

  如下图操作,点击“Generate xpath”,因为这个节点有一个很特殊的id属性,所以选择partial id。

  

  生成xpath后,点击xpath后面的搜索按钮,查看xpath对应多少个节点,本例为1/1,表示只对应一个节点,唯一,可以用来判断位置的动作。(如果是1/2,表示对应两个节点,当前节点就是其中之一,但是在这个例子中,我们需要做输入动作的位置只有一个,也就是说这个xpath不适合,需要单独选择)。确定xpath后,将副本复制到action设置中。

  输入单词:输入要搜索的关键词,例如输入:virus;;race,即首先是采集病毒的消息,然后是采集种族的消息。

  延迟:考虑到加载网页需要时间,最好设置一点延迟时间。这个网页的加载速度比较快,可以设置为5s。

  第一个动作,设置好输入动作后,工作台是这样的:

  1.3.2 设置第二个动作:点击动作

  点击新建设置第二个动作:点击动作

  如何找到搜索点击动作的 xpath?

  设置点击动作后,工作台如下所示:

  这样,我们就完成了两个动作的设置,完成了第一级任务。

  1.3.3 第一级任务测试,保存

  下图不是此示例的图像,但按钮的位置是相同的。

  点击“保存”按钮保存完成的一级任务

  暂时先保存一级任务,不要开始采集,因为我们还没有完成二级任务。

  2.退出一级任务定义状态

  在定义二级任务之前,首先退出一级任务定义状态。

  3. 定义二级任务

  

  3.1 加载网页,进入定义任务状态

  在网页输入关键词,搜索结果出来后,再次点击“+”进入任务定义模式。

  输入任务名称,即填写一级任务的动作设置的动作后要执行的任务:Tutorial_People's Network Search_Crawl。

  3.2 对网页做采集任务

  该页面上的每条新闻都是一个样本,在每个样本中,采集的信息是:标题、执行摘要、链接、时间。由于篇幅所限,我在此不再赘述。可以参考教程“采集List Data”。在本教程中,每条新闻都相当于一种商品。如果要翻页,请参考教程“翻页设置”。如果想更进一步,采集新闻详情,请看教程《深入采集》。

  二级任务完成后,测试,保存。

  4. 启动 采集

  对于连续动作任务采集,只需要启动一级任务,爬虫会自动调用二级任务。

  首先,进入任务管理页面。

  在任务管理页面,选择一级任务,点击开始,线索数为1(因为本例一级任务只有1条线索),以完成采集为尽快,得到 采集 的结果,有限的翻页,只有 采集5 页。

  点击上图中的OK后,爬虫弹出采集窗口,启动采集数据。可以观察到,在采集窗口中,搜索词自动加载,点击搜索,搜索结果页面自动加载,该页面的数据为采集。

  采集完成后按提示点击导出excel数据,然后进入二级任务的数据管理下载数据。

  所以流程是启动一级任务,去二级任务下载数据。

  下图是来自采集的数据截图。搜索到的关键词默认记录在二级任务结果数据的actionvalue字段中。

  Part 1 文章:《极搜客爬虫核心术语》 Part 2 文章:“自动点击京东商品规格价格数据采集”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线