不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)
优采云 发布时间: 2021-10-05 16:10不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)
本文首发于小凡新浪博客,今天转给新手学习~
今天给大家讲讲织梦5.3的采集规则教程怎么写!其他版本类似!
首先我们打开织梦后台,点击采集-采集节点管理-添加新节点
这里我们以采集normal文章为例,我们选择normal文章,然后确认
我们进入采集的设置页面,填写节点名称,也就是给这个新节点起个名字,这里可以随意填写。
然后打开你要采集的文章列表页面,这里我们以织梦的官网为例打开这个页面,右键-查看源文件
找到目标页面编码,就在charset之后
页面基本信息一般忽略,填写后如图
现在让我们填写列表URL获取规则
查看文章列表第一页的地址
比较第二页的地址
我们发现除了49_后面的数字都一样,所以我们可以这样写
(*).html
就用(*)代替1,因为只有2页,所以我们从1填到2,每页加1,当然2-1...等于1。
到此我们完成了
可能你的一些采集列表没有规则,所以你只需要手动指定列表URL,如图
每行写一个页面地址
列表规则写好后,开始编写文章 URL匹配规则,返回文章列表页面
右键查看源文件找到区域开头的HTML,也就是找到文章列表开头的标记。
我们可以很容易地找到如图所示的“新闻列表”。从这里开始,以下是文章的列表
让我们找到 文章 列表末尾的 HTML
就是这样,一个很容易找到的标志
如果链接收录图片:
不要将采集处理成缩略图,这里根据自己的需要选择
再次过滤区域 URL:
(使用正则表达式)
必须收录:(优先级高于后者)
不能收录:
打开源文件,我们可以清楚地看到文章链接都是以.html结尾的
所以,一定要在.html的后面填写,如果遇到一些比较麻烦的列表,也可以填写后面的不能收录
我们点击保存设置进入下一步,可以看到我们获取到的文章 URL
看到这个是对的,我们保存信息,进入下一步设置内容字段获取规则
看看文章有没有分页,随便输入一篇文章看看吧。. 我们看到文章中没有分页
所以这里我们默认了
现在我们找到文章标题等,输入一篇文章文章,右键查看源文件
看看这些
根据源码填写
让我们填写文章内容的开头和结尾
同上,找到开始和结束标志
开始:
结束:
要过滤什么内容文章写在过滤规则里,比如要过滤文章中的图片
选择通用规则
然后检查IMG并确认
这样我们过滤文本中的图片
设置完成后,点击保存设置并预览
这样的采集规则就写好了。这很简单。有些网站写起来难,但你需要更努力。
让我们点击保存并启动 采集-start 采集 网页并工作一段时间,采集 就结束了
让我们看看我们采集到达了什么文章
456
好像成功了,导出数据
完成,更新文档,可以看到采集来了文章
因为我们过滤了图片,里面的一张图片不见了!
写采集规则其实很简单~
第一次写东西,写的不好请补充,有错误请留言,我会及时改正!