全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

采集工具-Web Scraper的教学和示例

优采云发布时间: 2020-08-08 05:26

　　本文旨在学习和交流. 数据源的所有权属于原创网站及其所有者. 严禁使用本文提到的过程和数据牟利.

　　“有很多方法可以打钉子，有时我最熟悉的锤子会打我”

　　背景

　　最近收到协助采集网站的请求. 在传统的“列表+内容”页面模式下，使用PHP或采集器时始终会出现各种莫名其妙的问题. 基本上，我将使用“ node + puppteer”来执行此操作，并使用自动测试工具来模拟操作. 尽管它是通用锤子，但制造该锤子的过程和技术复杂性仍然存在，因此我转向了以前考虑过但没有尝试使用浏览器插件的方向，基本原理和思想与自动化基本相同工具，但使目标逻辑更适合浏览器，并且感觉更优雅.

　　当我检查信息时，我发现了Web Scraper. 我通过参考文档和教程将其应用于目标网站集，最后获得了数据. 如果熟悉整个操作过程，则可以快速设置并实施相应的规则. 采集，现在记录该过程.

　　过程

　　1. 安装网页抓取工具

　　如果您掌握科学的冲浪技能，则可以登录chorme在线商店直接搜索并安装

　　

　　或在百度上搜索“ Web scraper离线安装程序包”以获得相关支持. 离线安装过程将不会重复.

　　2. 分析目标电台

　　您可以看到这是一种典型的列表+内容显示方法. 现在，您需要同时采集列表和内容页面. 传统的采集思想是使用该程序将整个列表页面拉回，然后解析超链接. 跳转到内容页面.

　　

　　

　　现在让我们看一下如何使用网络抓取工具进行数据采集.

　　3. 设定规则

　　由于采集工具是通用的，关于如何采集和采集这些数据，这些规则要求用户根据实际情况进行配置. 首先，让我们了解一下网页抓取工具的打开方式和基本页面

　　①打开工具

　　在目标页面上打开开发人员工具（F11或单击鼠标右键检查），可以看到工具栏末尾有一个同名的标签，单击该标签可进入工具页面

　　

　　②创建一个新的采集任务

　　您需要在采集之前创建一个站点地图，这可以理解为一项任务，请选择创建新站点地图-创建站点地图

　　

　　站点地图名称是任务的名称，可以根据需要创建.

　　起始URL为您采集页面. 如果是列表+内容模式，建议填写列表页面.

　　然后创建站点地图，建立了基本任务.

　　

　　

　　③建立列表页面规则

　　单击“添加新选择器”以创建一个选择器，该选择器告诉插件应选择哪个节点. 对于在此类列表页面上也具有信息的页面，我们将每条信息视为一个块，其中收录各种属性信息. 创建方法如下:

　　您需要选中Multiple选项，这可以理解为循环获取.

　　

　　添加后，我们应该在信息块中标记内容. 具体操作方法与上述相同，但应选择信息的父选择器作为刚刚创建的信息块节点.

　　

　　其他节点的数据操作相同，请记住选择父节点.

　　④检查已建立的规则

0

2020-08-08

工具采集文章

0 个评论

要回复文章请先登录或注册

视
频
教
程

在
线
客
服

官方客服QQ群

在
线
客
服