文章采集规则( 织梦比较容易遇到的几个怎么办?问题解答!)
优采云 发布时间: 2021-10-21 07:00文章采集规则(
织梦比较容易遇到的几个怎么办?问题解答!)
织梦系统作为比较常用的文章系统,操作起来也比较简单。在众*敏*感*词*中,采集系统可能是一些新手比较头疼的问题,比如采集区域设置不正确,采集规则编辑不正确,采集是空白的。以及其他问题。今天我们就从几个比较容易遇到的问题来详细讲解。
首先我们先登录后台,点击采集--采集节点管理,进入采集管理设置界面
这里有两个选项,一个是修改原节点(主要是之前的设置错误导致采集失败或者其他设置),一个是直接添加节点,大部分是基于新节点,点击,然后下一步,选择“Normal文章”进行确认。
然后填写节点名称(建议是与列相关的名称,以免导入时出错),根据实际情况填写。那么第一个重点:目标页面编码。这是填写目标网页的代码,不是你自己的网页。查看方法:打开目标网站任意页面,空白处右键-查看源码(代码一般在前几行)
然后是填写列表的规则。一种是批量生成URL,一般适用于规则性强或者需要采集自上而下的情况。例如,我们针对此列:
第一页列表:
第二页列表:。
这个列表规则最重要的就是找出异同,将相似的地方填上,并用匹配的符号补充差异,这就是变量。其实在这个比较中,我们可以知道这里的.html是一样的,所以变量是1.2.3.4.。. 所以匹配的 URL 是:
(*).html。
另一种是列表规则是手动指定列表URL,比较流行。只需填写您需要的所有列表页面采集。(更适合仅采集某些页面或变量较多的页面)
注:网站的很多栏目首页都是以这种形式展示的。与上面比较,我们可以发现缺少以下变量项。所以查找变量项的方法是:点击这个列表的下一页,如果你不确定,点击下一页,比较列表的第二页和第三页,我们也可以在步骤中找到变量项4.
这一步是获取列表中文章的所有地址,我们要从列表页面中获取文章页面的所有地址。让我们以列表为例。复制列表下第一篇文章的标题文章,然后在列表页面空白处右键-查看源码,按ctrl+F搜索,粘贴刚刚复制的标题,然后找到文本源代码。其实这有一定的规律。然后我们找到源代码中哪一部分代码是唯一的,可以收录列表中所有文章地址(注意:起始代码搜索应该从列表的第一个文章标题开始,然后去向上,最后代码搜索你应该从列表的第一个文章标题开始往下看)。从这个源代码知道。启动代码: