文章采集规则(文档介绍:织梦采集规则增加新节点)
优采云 发布时间: 2022-02-03 17:13文章采集规则(文档介绍:织梦采集规则增加新节点)
文档介绍:织梦采集规则
一个*敏*感*词*的信息网站有很多渠道和很多数据网站。网站 管理员不可能把每一条数据都一一发送!这时,为了节省人力物力,采集器诞生了(做优化的朋友,作者不建议大家使用)!接下来笔者将使用织梦管理系统自带的采集器来采集一个网站数据,给大家演示一下采集规则是怎么写的!
第 1 步:创建一个新的 文章采集 节点
登录织梦管理后台,点击
采集>>采集节点管理>>添加新节点>>选择普通文章>>确定
第二步:填写采集列表规则
节点名称:随便(注意要能区分,因为如果节点太多,可能会迷惑自己)
目标页面编码:看目标页面的编码(比如我的采集的网站的编码是GB2312)
匹配网址:前往采集目标列表页面查看其列表规则!比如很多网站列表的首页和其他内页有很大的不同,所以我一般不会采集定位列表的首页!比如我演示的网站的列表规则是在首页设置一个默认首页,后面的实际路径是看不到的,如图:
所以,我们只能从第二页开始(虽然第一页可以找到,但是很多网站根本没有第一页,这里就不讲怎么找到第一页了) ,! 让我们比较一下采集目标页面的第二页和第三页!如图所示:
可以看到,这两页是定期递增的,第二页是list_2!第三页是list_3!因此,我们将匹配的 URL 写为
上面的一个(*)代表列表页的2,或3,或4,或更多!在第三个水平条上,我写了一个从2到5的(*),意思是从2到5,每增加一个+1就匹配到(*)而不是(*)!
区域开始的 HTML:采集 目标列表页面中的开源代码!在 文章 标题前面附近寻找一段将成为 采集 的段落,这是该页面和其他将成为 采集 的页面上的唯一 html 标记!
区末HTML:在采集目标列表页面打开源代码!在 文章 的标题附近寻找一个 html 标记,该标记将是 采集,并且对于该页面和其他将要成为 采集 的页面来说是唯一的!
在其他地方,我们还没有使用它,你可以不用管它!这样,列表页的规则就写好了!下图是我写的列表规则截图!
写好后点击保存信息,进入下一步!如果规则写对了,那么就会有一个带内容的URL获取规则测试:如下图
第三步:填写采集内容规则
文章标题:查看 文章 标题之前和之后