规则采集文章软件(网页抓取工具:一个简单的文章采集示例通过采集网页)

优采云 发布时间: 2022-03-16 05:13

  规则采集文章软件(网页抓取工具:一个简单的文章采集示例通过采集网页)

  网络爬虫:一个简单的 文章采集 示例

  采集器采集的原理和流程以采集网页抓取工具优采云采集器官网FAQ为例进行说明。

  本示例使用演示地址和优采云采集器V9 作为工具来说明示例。

  (1)创建一个新的 采集 规则

  右键单击一个组,选择“新建任务”,如下图:

  (2)添加起始 URL

  这里我们需要 采集 5 页数据。

  分析 URL 变量模式

  第一页地址:

  第二页地址:

  第三页地址:

  由此我们可以推断出p=后面的数字就是分页的意思,我们用[地址参数]来表示:

  所以设置如下:

  地址格式:使用【地址参数】表示更改后的页码。

  换号:从1开始,即第一页;每次加1,即每页的变化次数;一共5条,也就是一共采集5页。

  预览:采集器会根据上面的设置生成URL的一部分,让你判断添加是否正确。

  然后确认

  (3)[普通模式] 获取内容地址

  普通模式:该模式默认抓取一级地址,即从起始页的源码中获取到内容页A的链接。

  这里给大家介绍一下如何通过自动获取地址链接+设置区域来获取。

  查看页面源码找到文章地址所在的区域:

  设置如下:

  注意:更详细的分析说明可以在本手册中找到:

  操作指南> 软件操作> URL采集Rules> 获取内容URL

  点击网址采集Test查看测试效果

  (3)内容采集网址

  以标签为例采集

  注:更详细的分析说明,您可以下载并参考官网的用户手册。

  操作指南> 软件操作> 内容采集规则> 标签编辑

  我们先看看它的页面源码,找到我

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线