全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

文章采集规则( 一个简单的文章规则制作(图)采集(组图))

优采云发布时间: 2021-09-04 05:19

　　文章采集规则(

一个简单的文章规则制作(图)采集(组图))

　　7.1 一个简单的文章规则制定

　　一个简单的文章rule 生成

　　以采集faq为例说明采集器采集的原理和流程。

　　在这个例子中，我们将演示地址。

　　(1）create a new 采集rule

　　选择一个组右键，选择“新建任务”，如下图：

　　

　　（2）在此添加起始地址我需要采集5页数据。

　　解析网址变量的规律

　　首页地址：

　　第二页地址：

　　第三页地址：

　　由此可以推断p=后面的数字是分页的意思，我们用[地址参数]来表示：

　　所以设置如下：

　　

　　地址格式：用[地址参数]表示改变的页码。

　　编号变化：从1开始，即第一页；每次加1，即每页变化的次数；一共5条，也就是一共采集5页。

　　预览：采集器会根据上面的设置生成一部分URL，让你判断添加的是否正确。

　　然后确认。

　　(3）[普通模式]获取内容网址

　　普通模式：该模式默认抓取一级地址，即从起始页的源码中获取到内容页A的链接。

　　这里我教大家如何通过自动获取地址链接+设置区的方式获取。

　　查看页面源码，找到文章地址所在区域：

　　

　　设置如下：

　　注：更详细的分析说明请参考本手册：

　　

　　操作指南> 软件操作> URL采集Rules> 获取内容URL

　　点击网址采集test查看测试效果

　　

　　(3）内容采集URL

　　以采集标签为例说明

　　注意：更详细的分析说明请参考本手册

　　操作指南>软件操作>Content采集Rules>标签编辑

　　我们首先查看其页面的源代码，找到我们的“title”所在的代码：

　　导入Excle是一个对话框~打开Excle时出错-优采云采集器帮助中心

　　分析：开始的字符串是：

　　结束字符串是：

　　数据处理-内容替换/排除：需要替换-优采云采集器帮助中心清空

　　

　　设置内容标签的原理类似。在源码中找到内容的位置

　　

　　分析：开始的字符串是：

　　结束字符串是：

　　数据处理-HTML标签排除：过滤不需要的A链接等

　　

　　设置另一个“源”字段

　　

　　这么简单的文章采集规则已经准备好了。

0

2021-09-04

文章采集规则

0 个评论

要回复文章请先登录或注册

视
频
教
程

官方客服QQ群

在
线
客
服