采集工具-Web Scraper的教学和示例

优采云 发布时间: 2020-08-08 05:26

  本文旨在学习和交流. 数据源的所有权属于原创网站及其所有者. 严禁使用本文提到的过程和数据牟利.

  “有很多方法可以打钉子,有时我最熟悉的锤子会打我”

  背景

  最近收到协助采集网站的请求. 在传统的“列表+内容”页面模式下,使用PHP或采集器时始终会出现各种莫名其妙的问题. 基本上,我将使用“ node + puppteer”来执行此操作,并使用自动测试工具来模拟操作. 尽管它是通用锤子,但制造该锤子的过程和技术复杂性仍然存在,因此我转向了以前考虑过但没有尝试使用浏览器插件的方向,基本原理和思想与自动化基本相同工具,但使目标逻辑更适合浏览器,并且感觉更优雅.

  当我检查信息时,我发现了Web Scraper. 我通过参考文档和教程将其应用于目标网站集,最后获得了数据. 如果熟悉整个操作过程,则可以快速设置并实施相应的规则. 采集,现在记录该过程.

  过程

  1. 安装网页抓取工具

  如果您掌握科学的冲浪技能,则可以登录chorme在线商店直接搜索并安装

  

  或在百度上搜索“ Web scraper离线安装程序包”以获得相关支持. 离线安装过程将不会重复.

  2. 分析目标电台

  您可以看到这是一种典型的列表+内容显示方法. 现在,您需要同时采集列表和内容页面. 传统的采集思想是使用该程序将整个列表页面拉回,然后解析超链接. 跳转到内容页面.

  

  

  现在让我们看一下如何使用网络抓取工具进行数据采集.

  3. 设定规则

  由于采集工具是通用的,关于如何采集和采集这些数据,这些规则要求用户根据实际情况进行配置. 首先,让我们了解一下网页抓取工具的打开方式和基本页面

  ①打开工具

  在目标页面上打开开发人员工具(F11或单击鼠标右键检查),可以看到工具栏末尾有一个同名的标签,单击该标签可进入工具页面

  

  ②创建一个新的采集任务

  您需要在采集之前创建一个站点地图,这可以理解为一项任务,请选择创建新站点地图-创建站点地图

  

  站点地图名称是任务的名称,可以根据需要创建.

  起始URL为您采集页面. 如果是列表+内容模式,建议填写列表页面.

  然后创建站点地图,建立了基本任务.

  

  

  ③建立列表页面规则

  单击“添加新选择器”以创建一个选择器,该选择器告诉插件应选择哪个节点. 对于在此类列表页面上也具有信息的页面,我们将每条信息视为一个块,其中收录各种属性信息. 创建方法如下:

  您需要选中Multiple选项,这可以理解为循环获取.

  

  添加后,我们应该在信息块中标记内容. 具体操作方法与上述相同,但应选择信息的父选择器作为刚刚创建的信息块节点.

  

  其他节点的数据操作相同,请记住选择父节点.

  ④检查已建立的规则

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线