采集文章系统( 文章类的采集,图片集的另外找个时间来讲,)

优采云 发布时间: 2022-03-17 20:08

  采集文章系统(

文章类的采集,图片集的另外找个时间来讲,)

  dedecms织梦采集规则编写教程的文章类采集

  游戏/数字网络2017-07-28 19 浏览

  织梦 系统作为常用的文章 系统,操作起来比较简单。在众*敏*感*词*中,采集系统可能会让一些新手头疼,比如采集locale设置不正确。采集规则的具体编辑不正确。采集 后面有空格等问题。今天我们将详细解释一些比较容易遇到的问题。(今天的主题是文章类的采集,换个时间的图集就不一样了)工具/材料自己的网站目标的< @网站方法/步骤首先我们登录后台,分别点击采集--采集节点管理,进入采集管理设置界面。这里有两种选择,

  织梦系统作为常用的文章系统相对容易操作。在众*敏*感*词*中,采集系统可能会让一些新手头疼,比如采集区域设置不正确,采集规则编辑不正确,采集空白等问题。今天我们将详细解释一些比较容易遇到的问题。(今天主要讲文章类的采集。在图片采集方面,另找时间,这个不一样)

  工具/材料

  方法/步骤

  首先我们登录后台,点击采集--采集节点管理,进入采集管理设置界面

  

  这里有两种选择,一种是修改原节点(主要是之前的设置错误导致采集失败或者其他设置),另一种是直接添加新节点,大部分都是基于新节点,点击,然后下一步,选择“Normal文章”进行确认。

  

  然后填写节点名称(推荐为与列相关的名称,避免导入时出错),这个可以根据实际填写。那么第一个重点:目标页面编码。这是填写目标页面的代码,不是你自己的页面。查看方法:打开目标网站任意页面,在空白处右键-查看源代码(编码一般在前几行)

  

  然后就是填写列表规则。一种是批量生成URL,一般适用于规则强或者需要采集自上而下的情况。例如,我们针对此列:

  第一页列表:

  第二页列表:。

  这个列表规则最重要的就是找到相同点和不同点,把相同点填上,不同点用匹配符号补充,也就是变量。其实通过这个对比我们可以知道,这里的.html也是一样的,所以变量是1.2.3.4.。. 所以匹配的 URL 是:

  (*).html。

  

  另一种是列表规则是手动指定列表URL,比较流行。只需填写您需要的所有列表页面采集。(比较适合采集只有几页或者变量多的页面)

  注意:许多网站 栏目主页都以这种形式显示。我们可以对比上面,发现下面的变量项是缺失的。所以查找变量项的方法是:点击列表的下一页,如果还是不清楚再点击下一页,对比列表的第二页和第三页,我们也可以找到变量步骤 4 中的项目。

  

  这一步是获取列表下文章的所有地址,我们要从列表页面中获取所有文章页面地址。我们以:List 为例。复制列表中第一篇文章文章的标题,然后在列表页空白处右键--查看源码,按ctrl+F搜索,粘贴刚才复制的标题,找到在文本源代码中的位置。事实上,这是一定的规律。然后我们寻找源代码的哪一部分是唯一的,并且可以收录列表中所有的文章地址(注意:开始代码搜索应该从列表中第一个文章的标题开始,然后去向上,并结束代码搜索您应该从列表中第一篇文章的标题开始向下看文章)。从这个源代码可以看出。启动代码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线