文章采集规则( 文章类的采集,图片集的另外找个时间来讲,)

优采云 发布时间: 2022-03-24 01:09

  文章采集规则(

文章类的采集,图片集的另外找个时间来讲,)

  dedecms织梦采集规则编写教程文章课堂采集

  游戏/数字网络 2017-07-28 22 浏览

  织梦系统作为常用的文章系统,操作起来比较简单。在众*敏*感*词*中,采集系统可能会让一些新手头疼。例如,采集 区域设置不正确。 采集 规则编辑不正确。 采集 为空白。今天我们将详细解释一些比较容易遇到的问题。 (今天主要讲文章类的采集,其他时候图片集会不一样。) 工具/材料自己的网站目标的网站@ > 方法/步骤首先我们登录后台,分别点击采集--采集节点管理,进入采集管理设置界面。这里有两种选择,一种是修改原节点(主要是之前的设置错误导致采集cannot or

  织梦系统作为常用的文章系统,操作起来比较简单。在众*敏*感*词*中,采集系统可能会让一些新手头疼,比如采集区域设置不正确,采集规则编辑不正确,采集空白等问题。今天我们将详细解释一些比较容易遇到的问题。 (今天主要讲文章类的采集,我会另找时间采集图片的,这个不一样)

  工具/成分

  方法/步骤

  首先我们登录后台,点击采集--采集节点管理,进入采集管理设置界面

  

  这里有两个选项,一个是修改原节点(主要是之前的设置错误导致采集失败或者其他设置),另一个是直接添加新节点,大部分主要是新建节点,点击,然后下一步,选择“Normal文章”确认。

  

  然后填写节点名称(推荐为与列相关的名称,避免导入时出错),这个可以根据实际填写。那么第一点:目标页面编码。这是填写目标页面的代码,不是你自己的页面。查看方法:打开目标网站任意页面,在空白处右键-查看源代码(编码一般在前几行)

  

  然后就是填写列表规则。一种是批量生成url,一般适用于规则性强或者需要采集自上而下的情况。例如,我们定位到此列:

  首页列表:

  第二页列表:.

  这个列表规则最重要的就是找到相同点和不同点,把相同的点填上,不同的点用匹配的符号补充,也就是变量。其实通过这个对比我们可以知道,这里的.html也是一样的,所以变量是1.2.3.4.。 所以匹配的网址是:

  (*).html.

  

  另一种是列表规则是手动指定列表URL,比较流行。只需填写您需要的所有列表页面采集。 (只适用于采集某些页面或变量较多的页面)

  注意:许多网站 栏目主页都以这种形式显示。与上述相比,我们发现缺少以下变量项。所以查找变量项的方法是:点击列表的下一页,如果还是不清楚再点击下一页,对比列表的第二页和第三页,我们也可以找到变量第 4 步中的项目。

  

  这一步是获取列表下文章的所有地址,我们要从列表页面中获取所有文章页面地址。我们以:List 为例。复制列表中第一篇文章文章的标题,然后在列表页空白处右键--查看源码,按ctrl+F搜索,粘贴刚才复制的标题,找到在文本源代码中的位置。事实上,这是一定的规律。然后我们寻找源代码的哪一部分是唯一的,并且可以收录列表中所有的文章地址(注意:开始代码搜索应该从列表中第一个文章的标题开始,然后去向上,并结束代码搜索您应该从列表中第一篇文章的标题开始向下看文章)。从这个源代码可以看出。开始代码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线