不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)

优采云发布时间: 2021-10-05 16:10

　　本文首发于小凡新浪博客，今天转给新手学习~

　　今天给大家讲讲织梦5.3的采集规则教程怎么写！其他版本类似！

　　首先我们打开织梦后台，点击采集-采集节点管理-添加新节点

　　这里我们以采集normal文章为例，我们选择normal文章，然后确认

　　我们进入采集的设置页面，填写节点名称，也就是给这个新节点起个名字，这里可以随意填写。

　　然后打开你要采集的文章列表页面，这里我们以织梦的官网为例打开这个页面，右键-查看源文件

　　找到目标页面编码，就在charset之后

　　页面基本信息一般忽略，填写后如图

　　现在让我们填写列表URL获取规则

　　查看文章列表第一页的地址

　　比较第二页的地址

　　我们发现除了49_后面的数字都一样，所以我们可以这样写

　　(*).html

　　就用(*)代替1，因为只有2页，所以我们从1填到2，每页加1，当然2-1...等于1。

　　到此我们完成了

　　可能你的一些采集列表没有规则，所以你只需要手动指定列表URL，如图

　　每行写一个页面地址

　　列表规则写好后，开始编写文章 URL匹配规则，返回文章列表页面

　　右键查看源文件找到区域开头的HTML，也就是找到文章列表开头的标记。

　　我们可以很容易地找到如图所示的“新闻列表”。从这里开始，以下是文章的列表

　　让我们找到文章列表末尾的 HTML

　　就是这样，一个很容易找到的标志

　　如果链接收录图片：

　　不要将采集处理成缩略图，这里根据自己的需要选择

　　再次过滤区域 URL：

　　（使用正则表达式）

　　必须收录：（优先级高于后者）

　　不能收录：

　　打开源文件，我们可以清楚地看到文章链接都是以.html结尾的

　　所以，一定要在.html的后面填写，如果遇到一些比较麻烦的列表，也可以填写后面的不能收录

　　我们点击保存设置进入下一步，可以看到我们获取到的文章 URL

　　看到这个是对的，我们保存信息，进入下一步设置内容字段获取规则

　　看看文章有没有分页，随便输入一篇文章看看吧。. 我们看到文章中没有分页

　　所以这里我们默认了

　　现在我们找到文章标题等，输入一篇文章文章，右键查看源文件

　　看看这些

　　根据源码填写

　　让我们填写文章内容的开头和结尾

　　同上，找到开始和结束标志

　　开始：

　　结束：

　　要过滤什么内容文章写在过滤规则里，比如要过滤文章中的图片

　　选择通用规则

　　然后检查IMG并确认

　　这样我们过滤文本中的图片

　　设置完成后，点击保存设置并预览

　　这样的采集规则就写好了。这很简单。有些网站写起来难，但你需要更努力。

　　让我们点击保存并启动采集-start 采集网页并工作一段时间，采集就结束了

　　让我们看看我们采集到达了什么文章

　　456

　　好像成功了，导出数据

　　完成，更新文档，可以看到采集来了文章

　　因为我们过滤了图片，里面的一张图片不见了！

　　写采集规则其实很简单~

　　第一次写东西，写的不好请补充，有错误请留言，我会及时改正！

0

2021-10-05

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(怎么写织梦5.3的采集规则教程!其他版本也类似)

0 个评论

发起人

相关问题