网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程，附上了详细图文介绍)

优采云发布时间: 2021-09-08 14:03

　　众所周知，网站优化比较麻烦的就是更新文章，尤其是手头网站数量多的时候，一个网站更新1-2篇文章每天。当网站超过十二十个的时候，很难每天保持更新。因为每个seo/'target='_blank'>优化器的能量太有限了。今天三哥来给大家分享一个dedecms织梦自带的采集插件的使用教程，并附上详细的图文介绍。希望能帮助到更多像三哥一样使用织梦程序的朋友。

　　首先我们打开织梦Background，点击采集——采集节点管理——添加一个新节点

　　这里以采集普通文章为例，我们选择普通文章，然后确认

　　我们进入采集的设置页面，填写节点名称，就是给这个新节点起一个名字。你可以在这里填写。

　　然后打开你想要的采集的文章列表页面，这里我们以三哥采集除了甲醛网站的一个为例打开这个页面，右键查看源文件

　　找到目标页面编码，就在charset之后

　　一般不关心页面的其他基本信息，如图填写

　　现在我们来填写列表网址获取规则

　　查看文章列表第一页的地址

　　比较第二页的地址

　　我们发现除了news_后面的数字是一样的，所以我们可以这样写

　　(*).html

　　用(*)代替1，因为只有2页，所以我们从1到2填，每页加1，当然2-1...等于1，对

　　到此我们完成了。

　　也许每个人采集对某些列表没有规则，所以你只需要手动指定列表URL。

　　列表规则完成后，开始编写文章URL匹配规则，返回文章List页面

　　右击查看源文件。查找区域开头的HTML，即查找文章列表开头的标记。

　　我们可以很容易地找到图中的“”。从这里开始，以下是文章的列表

　　让我们找到文章列表末尾的HTML

　　就是这样，一个容易找到的标志

　　如果链接收录图片：不要为缩略图处理采集。根据您的需要选择。

　　重新过滤区域网址：

　　（使用正则表达式）

　　必须包括：（优先级高于后者）

　　不能收录：

　　打开源文件，我们可以清楚地看到文章链接都是以.html结尾的

　　所以，我们在 must include 之后填写 .html。如果遇到一些很麻烦的列表，也可以填写以下不能收录的内容

　　我们点击保存设置进入下一步，可以看到我们获取到的文章网址

　　看到这些是对的，我们保存信息，进入下一步设置内容字段获取规则

　　看看文章有没有分页，直接输入一篇文章文章看看。我们看到文章这里没有分页

　　所以我们默认了

　　我们现在找文章title等，随便输入一篇文章文章，右键查看源文件

　　看看这些

　　按照源码填写

　　我们重新填写文章内容的开头和结尾

　　同上，求开始和结束标志

　　你要过滤文章什么，在过滤规则里写就行了，比如你要过滤文章中的图片

　　选择常用规则

　　再次检查IMG然后确认

　　这样我们就过滤了文本中的图片

　　设置完成后，点击保存设置并预览

　　写了这样的采集规则。这很简单。一些网站很难写，但我需要多做一点。

　　保存并启动采集——启动采集webpage 过一会儿，功夫就采集完了

　　来看看我们采集到达的文章

　　好像成功了，导出数据

　　首先选择您要导入的列，在那里按“请选择”，您可以在弹出的窗口中选择您需要导入的列。发布选项通常是默认选项，除非您不想立即发布。每批导入默认为30个。你是否修改它并不重要。附加选项一般选择“排除重复标题”。至于自动生成HTML的选项，建议不要先生成，因为我们要批量提取摘要和关键词。

0

2021-09-08

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程，附上了详细图文介绍)

0 个评论

发起人

AI时代内容工厂

网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程，附上了详细图文介绍)

0 个评论

发起人

相关问题