文章采集规则( 一个简单的文章规则制作(图)采集(组图))
优采云 发布时间: 2021-09-04 05:19文章采集规则(
一个简单的文章规则制作(图)采集(组图))
7.1 一个简单的文章 规则制定
一个简单的文章rule 生成
以采集faq为例说明采集器采集的原理和流程。
在这个例子中,我们将演示地址。
(1)create a new 采集rule
选择一个组右键,选择“新建任务”,如下图:
(2)在此添加起始地址我需要采集5页数据。
解析网址变量的规律
首页地址:
第二页地址:
第三页地址:
由此可以推断p=后面的数字是分页的意思,我们用[地址参数]来表示:
所以设置如下:
地址格式:用[地址参数]表示改变的页码。
编号变化:从1开始,即第一页;每次加1,即每页变化的次数;一共5条,也就是一共采集5页。
预览:采集器会根据上面的设置生成一部分URL,让你判断添加的是否正确。
然后确认。
(3)[普通模式]获取内容网址
普通模式:该模式默认抓取一级地址,即从起始页的源码中获取到内容页A的链接。
这里我教大家如何通过自动获取地址链接+设置区的方式获取。
查看页面源码,找到文章地址所在区域:
设置如下:
注:更详细的分析说明请参考本手册:
操作指南> 软件操作> URL采集Rules> 获取内容URL
点击网址采集test查看测试效果
(3)内容采集URL
以采集标签为例说明
注意:更详细的分析说明请参考本手册
操作指南>软件操作>Content采集Rules>标签编辑
我们首先查看其页面的源代码,找到我们的“title”所在的代码:
导入Excle是一个对话框~打开Excle时出错-优采云采集器帮助中心
分析:开始的字符串是:
结束字符串是:
数据处理-内容替换/排除:需要替换-优采云采集器帮助中心清空
设置内容标签的原理类似。在源码中找到内容的位置
分析:开始的字符串是:
结束字符串是:
数据处理-HTML标签排除:过滤不需要的A链接等
设置另一个“源”字段
这么简单的文章采集规则已经准备好了。