不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)

优采云 发布时间: 2021-10-05 16:10

  不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)

  本文首发于小凡新浪博客,今天转给新手学习~

  今天给大家讲讲织梦5.3的采集规则教程怎么写!其他版本类似!

  首先我们打开织梦后台,点击采集-采集节点管理-添加新节点

  这里我们以采集normal文章为例,我们选择normal文章,然后确认

  我们进入采集的设置页面,填写节点名称,也就是给这个新节点起个名字,这里可以随意填写。

  然后打开你要采集的文章列表页面,这里我们以织梦的官网为例打开这个页面,右键-查看源文件

  找到目标页面编码,就在charset之后

  页面基本信息一般忽略,填写后如图

  现在让我们填写列表URL获取规则

  查看文章列表第一页的地址

  比较第二页的地址

  我们发现除了49_后面的数字都一样,所以我们可以这样写

  (*).html

  就用(*)代替1,因为只有2页,所以我们从1填到2,每页加1,当然2-1...等于1。

  到此我们完成了

  可能你的一些采集列表没有规则,所以你只需要手动指定列表URL,如图

  每行写一个页面地址

  列表规则写好后,开始编写文章 URL匹配规则,返回文章列表页面

  右键查看源文件找到区域开头的HTML,也就是找到文章列表开头的标记。

  我们可以很容易地找到如图所示的“新闻列表”。从这里开始,以下是文章的列表

  让我们找到 文章 列表末尾的 HTML

  就是这样,一个很容易找到的标志

  如果链接收录图片:

  不要将采集处理成缩略图,这里根据自己的需要选择

  再次过滤区域 URL:

  (使用正则表达式)

  必须收录:(优先级高于后者)

  不能收录:

  打开源文件,我们可以清楚地看到文章链接都是以.html结尾的

  所以,一定要在.html的后面填写,如果遇到一些比较麻烦的列表,也可以填写后面的不能收录

  我们点击保存设置进入下一步,可以看到我们获取到的文章 URL

  看到这个是对的,我们保存信息,进入下一步设置内容字段获取规则

  看看文章有没有分页,随便输入一篇文章看看吧。. 我们看到文章中没有分页

  所以这里我们默认了

  现在我们找到文章标题等,输入一篇文章文章,右键查看源文件

  看看这些

  根据源码填写

  让我们填写文章内容的开头和结尾

  同上,找到开始和结束标志

  开始:

  结束:

  要过滤什么内容文章写在过滤规则里,比如要过滤文章中的图片

  选择通用规则

  然后检查IMG并确认

  这样我们过滤文本中的图片

  设置完成后,点击保存设置并预览

  这样的采集规则就写好了。这很简单。有些网站写起来难,但你需要更努力。

  让我们点击保存并启动 采集-start 采集 网页并工作一段时间,采集 就结束了

  让我们看看我们采集到达了什么文章

  456

  好像成功了,导出数据

  完成,更新文档,可以看到采集来了文章

  因为我们过滤了图片,里面的一张图片不见了!

  写采集规则其实很简单~

  第一次写东西,写的不好请补充,有错误请留言,我会及时改正!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线