规则采集文章软件(网页抓取工具:一个简单的文章采集示例通过采集网页)
优采云 发布时间: 2022-03-16 05:13规则采集文章软件(网页抓取工具:一个简单的文章采集示例通过采集网页)
网络爬虫:一个简单的 文章采集 示例
采集器采集的原理和流程以采集网页抓取工具优采云采集器官网FAQ为例进行说明。
本示例使用演示地址和优采云采集器V9 作为工具来说明示例。
(1)创建一个新的 采集 规则
右键单击一个组,选择“新建任务”,如下图:
(2)添加起始 URL
这里我们需要 采集 5 页数据。
分析 URL 变量模式
第一页地址:
第二页地址:
第三页地址:
由此我们可以推断出p=后面的数字就是分页的意思,我们用[地址参数]来表示:
所以设置如下:
地址格式:使用【地址参数】表示更改后的页码。
换号:从1开始,即第一页;每次加1,即每页的变化次数;一共5条,也就是一共采集5页。
预览:采集器会根据上面的设置生成URL的一部分,让你判断添加是否正确。
然后确认
(3)[普通模式] 获取内容地址
普通模式:该模式默认抓取一级地址,即从起始页的源码中获取到内容页A的链接。
这里给大家介绍一下如何通过自动获取地址链接+设置区域来获取。
查看页面源码找到文章地址所在的区域:
设置如下:
注意:更详细的分析说明可以在本手册中找到:
操作指南> 软件操作> URL采集Rules> 获取内容URL
点击网址采集Test查看测试效果
(3)内容采集网址
以标签为例采集
注:更详细的分析说明,您可以下载并参考官网的用户手册。
操作指南> 软件操作> 内容采集规则> 标签编辑
我们先看看它的页面源码,找到我