说明如何使用爬虫工具在阿里巴巴批发网站上批量采集产品数据

优采云 发布时间: 2020-08-07 16:18

  本文主要介绍如何使用优采云采集器的智能模式来采集批发价格,交货时间以及是否代表阿里巴巴批发网络产品免费发送等信息.

  采集栏:

  产品标题,产品链接,图像链接,标签1,标签2,标签3,价格,30天交易编号,评估,商店

  功能点目录:

  如何配置采集字段

  如何采集列表和详细页面类型的网页

  采集结果预览:

  

  让我们详细介绍如何免费从1688批发网络中采集产品数据. 让我们以“羽绒服女士”为例. 具体步骤如下:

  步骤1: 下载并安装优采云采集器,然后注册并登录

  1. 单击此处以打开优采云采集器网络,下载并安装采集器软件工具-优采云采集器软件

  2. 单击注册以登录,注册新帐户,然后登录到优采云采集器

  

  [提醒]您可以直接使用此采集器软件,而无需注册,但是切换到注册用户时,匿名帐户下的任务将会丢失,因此建议您在注册后使用它.

  优采云采集器是优采云的产品. 如果您是优采云的用户,则可以直接登录.

  第2步: 创建一个新的采集任务

  1. 复制1688羽绒服女孩的网页(需要搜索结果页面的URL,而不是主页的URL)

  

  2. 创建一个新的智能模式采集任务

  您可以直接在软件上创建新的采集任务,也可以通过导入规则来创建任务.

  

  第3步: 配置采集规则

  1. 设置提取数据字段

  在智能模式下,输入URL后,软件可以自动识别页面上的数据并生成采集结果. 每种数据类型都对应一个采集字段. 我们可以右键单击该字段以进行相关设置,包括修改字段名称,添加或删除字段,过程数据等.

  

  在列表页面上,我们需要采集诸如产品标题,产品链接,价格和标签之类的信息. 字段设置如下:

  

  2. 使用深度采集功能提取详细页面数据

  在列表页面上,仅显示1688个批发网络产品的部分信息. 如果您需要有关产品的详细信息,我们需要右键单击产品链接,然后使用“深度采集”功能跳转到详细信息页面进行采集.

  

  在详细信息页面上,我们可以查看产品评论的数量,30天的累计销售量和商店信息. 我们可以单击“添加字段”来添加集合字段. 字段设置如下:

  

  第4步: 设置并启动采集任务

  1. 设置采集任务

  添加采集的数据后,我们可以开始采集任务. 单击以开始采集并跳出任务栏. 任务栏界面上有一个“更多设置”按钮. 我们可以单击以设置它或遵循系统默认设置.

  单击“更多设置”按钮,然后在弹出的操作设置页面中设置操作设置和防阻塞设置. 系统默认为“ 2”秒以请求等待时间. 防阻塞设置遵循系统默认设置,然后单击“保存”.

  

  

  2,开始采集任务

  单击“保存并开始”按钮,在弹出页面中进行一些高级设置,包括定时开始,自动存储和下载图片. 在本示例中未使用这些功能,只需单击“开始”以运行采集器工具.

  [温馨提示]免费版可以使用非定期定时采集功能,而下载图片功能是免费的. 个人专业版及更高版本可以使用高级计时功能和自动存储功能.

  

  3. 运行任务以提取数据

  任务开始后,将自动采集数据. 我们可以从界面直观地看到程序的运行过程和采集结果,采集结束后会有提醒.

  

  第5步: 导出和查看数据

  数据采集完成后,我们可以查看和导出数据. 优采云采集器支持多种导出方法(手动导出到本地,手动导出到数据库,自动发布到数据库,自动发布到网站)和导出文件格式(EXCEL,CSV,HTML和TXT),我们选择方法和文件类型需要,然后单击“确认导出”.

  [提醒]: 所有手动导出功能都是免费的. 个人专业版及更高版本可以使用“发布到网站”功能.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线