文章采集发布(文章类的采集,图片集的另外找个时间来讲,有差异)
优采云 发布时间: 2022-02-13 15:10文章采集发布(文章类的采集,图片集的另外找个时间来讲,有差异)
织梦系统作为一个比较常见的文章系统,使用起来比较简单。在众*敏*感*词*中,采集系统可能会让一些新手头疼,比如采集区域设置不正确,采集规则编辑不正确,采集空白等问题。今天我们将详细解释一些比较容易遇到的问题。(今天主要讲文章类的采集。在图片采集方面,另找时间,这个不一样)
1 首先我们登录后台,点击采集--采集节点管理,进入采集管理设置界面
2 这里有两种选择,一种是修改原节点(主要是之前的设置错误导致采集失败或者其他设置),另一种是直接添加新节点,大部分都是基于new节点,单击,然后下一步,选择“Normal文章”进行确认。
3 然后填写节点名称(推荐为与列相关的名称,避免导入时出错),这个可以根据实际填写。那么第一个重点:目标页面编码。这是填写目标页面的代码,不是你自己的页面。查看方法:打开目标网站任意页面,在空白处右键-查看源代码(编码一般在前几行)
4 然后填写列表规则。一种是批量生成URL,一般适用于规则强或者需要采集自上而下的情况。比如我们针对这个栏目:第一页列表:第二页列表:。这个列表规则最重要的就是找到相同点和不同点,把相同点填上,不同点用匹配符号补充,也就是变量。其实通过这个对比我们可以知道,这里的.html也是一样的,所以变量是1.2.3.4.。. 所以匹配的 URL 是:(*).html。
5 另一个是列表规则是手动指定列表URL,比较流行。只需填写您需要的所有列表页面采集。(比较适合采集只有几页或者变量多的页面) 注意:很多网站栏目首页都以这种形式显示。我们可以对比上面,发现下面的变量是缺失的。. 所以查找变量项的方法是:点击列表的下一页,如果还是不清楚就点击下一页,对比列表的第二页和第三页,我们也可以在步骤中找到变量项4.
6 这一步是获取列表下文章的所有地址,我们要从列表页面中获取所有文章页面地址。我们以:List 为例。复制列表中第一篇文章文章的标题,然后在列表页空白处右键--查看源码,按ctrl+F搜索,粘贴刚才复制的标题,找到在文本源代码中的位置。事实上,这是一定的规律。然后我们找到源代码的哪一部分是唯一的,并且可以收录列表中所有的文章地址(注意:开始代码搜索应该从列表中第一个文章的标题开始,并且结束代码搜索你应该从列表中第一篇文章的标题开始往下看文章)。从这个源代码可以看出。启动代码: