文章采集规则(文档介绍：织梦采集规则增加新节点)

优采云发布时间: 2022-02-03 17:13

　　文档介绍：织梦采集规则

　　一个*敏*感*词*的信息网站有很多渠道和很多数据网站。网站管理员不可能把每一条数据都一一发送！这时，为了节省人力物力，采集器诞生了（做优化的朋友，作者不建议大家使用）！接下来笔者将使用织梦管理系统自带的采集器来采集一个网站数据，给大家演示一下采集规则是怎么写的！

　　第 1 步：创建一个新的文章采集节点

　　登录织梦管理后台，点击

　　采集>>采集节点管理>>添加新节点>>选择普通文章>>确定

　　第二步：填写采集列表规则

　　节点名称：随便（注意要能区分，因为如果节点太多，可能会迷惑自己）

　　目标页面编码：看目标页面的编码（比如我的采集的网站的编码是GB2312）

　　匹配网址：前往采集目标列表页面查看其列表规则！比如很多网站列表的首页和其他内页有很大的不同，所以我一般不会采集定位列表的首页！比如我演示的网站的列表规则是在首页设置一个默认首页，后面的实际路径是看不到的，如图：

　　所以，我们只能从第二页开始（虽然第一页可以找到，但是很多网站根本没有第一页，这里就不讲怎么找到第一页了） ,! 让我们比较一下采集目标页面的第二页和第三页！如图所示：

　　可以看到，这两页是定期递增的，第二页是list_2！第三页是list_3！因此，我们将匹配的 URL 写为

　　上面的一个（*）代表列表页的2，或3，或4，或更多！在第三个水平条上，我写了一个从2到5的（*），意思是从2到5，每增加一个+1就匹配到（*）而不是（*）！

　　区域开始的 HTML：采集目标列表页面中的开源代码！在文章标题前面附近寻找一段将成为采集的段落，这是该页面和其他将成为采集的页面上的唯一 html 标记！

　　区末HTML：在采集目标列表页面打开源代码！在文章的标题附近寻找一个 html 标记，该标记将是采集，并且对于该页面和其他将要成为采集的页面来说是唯一的！

　　在其他地方，我们还没有使用它，你可以不用管它！这样，列表页的规则就写好了！下图是我写的列表规则截图！

　　写好后点击保存信息，进入下一步！如果规则写对了，那么就会有一个带内容的URL获取规则测试：如下图

　　第三步：填写采集内容规则

　　文章标题：查看文章标题之前和之后

0

2022-02-03

文章采集规则

0 个评论

要回复文章请先登录或注册