文章采集规则( 织梦比较容易遇到的几个怎么办?问题解答!)
优采云 发布时间: 2021-12-27 23:14文章采集规则(
织梦比较容易遇到的几个怎么办?问题解答!)
织梦系统作为比较常用的文章系统,操作起来比较简单。在众多的功能中,采集
系统可能是一些新手比较头疼的问题,比如采集
区域设置不正确、采集
规则具体编辑不正确、采集
后出现空白等。今天我们就从几个比较容易遇到的问题来详细讲解。
首先我们先登录后台,分别点击采集
-采集
节点管理,进入采集
管理设置界面
这里有两个选项,一个是修改原来的节点(主要是之前的设置错误导致无法采集或者其他设置),另一个是直接添加一个节点,大部分是基于添加一个新的节点,点击,然后下一步,选择“普通文章”确认。
然后填写节点名称(建议是与列相关的名称,以免导入时出错),根据实际情况填写。然后是第一个重点:目标页面编码。这个一定要填写目标网页的代码,而不是你自己的网页。查看方法:打开目标网站任意页面,空白处右键-查看源码(代码一般在前几行)
然后是填写列表的规则。一种是批量生成URL,一般适用于强规则或者需要从上到下采集
。例如,我们针对此列:
第一页列表:
第二页列表:。
这个列表规则最重要的就是找出异同,将相似的地方填上,并用匹配的符号来补充差异,这就是变量。其实在这个比较中,我们可以知道.html在这里是一样的,所以变量是1.2.3.4.。. 所以匹配的 URL 是:
(*).html。
另一种是列表规则是手动指定列表URL,比较流行。只需填写您需要采集
的所有列表页面。(比较适合只采集
几页或变量较多的页)
注:很多网站的栏目首页都是以这种形式显示的。与上面相比,我们可以发现缺少以下变量项。所以查找变量项的方法是:点击这个列表的下一页,如果你不确定,点击下一页,比较列表的第二页和第三页,我们也可以在步骤中找到变量项4.
这一步是获取列表中所有文章的地址,我们需要从列表页面中获取所有文章页面地址。让我们以列表为例。复制列表中第一篇文章的标题,然后在列表页面空白处右键-查看源码,按ctrl+F查找,粘贴刚才复制的标题,定位到文本源代码。其实这有一定的规律。然后我们找到源代码中哪一部分代码是唯一的,可以收录
列表中所有文章地址(注意:开始代码搜索应该从列表中的第一个文章标题开始向上,结束代码搜索应该从列表中的第一篇文章标题开始。开始往下看)。从这个源代码知道。启动代码: