网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程,附上了详细图文介绍)
优采云 发布时间: 2021-09-08 14:03网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程,附上了详细图文介绍)
众所周知,网站优化比较麻烦的就是更新文章,尤其是手头网站数量多的时候,一个网站更新1-2篇文章每天。当网站超过十二十个的时候,很难每天保持更新。因为每个seo/'target='_blank'>优化器的能量太有限了。今天三哥来给大家分享一个dedecms织梦自带的采集插件的使用教程,并附上详细的图文介绍。希望能帮助到更多像三哥一样使用织梦程序的朋友。
首先我们打开织梦Background,点击采集——采集节点管理——添加一个新节点
这里以采集普通文章为例,我们选择普通文章,然后确认
我们进入采集的设置页面,填写节点名称,就是给这个新节点起一个名字。你可以在这里填写。
然后打开你想要的采集的文章列表页面,这里我们以三哥采集除了甲醛网站的一个为例打开这个页面,右键查看源文件
找到目标页面编码,就在charset之后
一般不关心页面的其他基本信息,如图填写
现在我们来填写列表网址获取规则
查看文章列表第一页的地址
比较第二页的地址
我们发现除了news_后面的数字是一样的,所以我们可以这样写
(*).html
用(*)代替1,因为只有2页,所以我们从1到2填,每页加1,当然2-1...等于1,对
到此我们完成了。
也许每个人采集对某些列表没有规则,所以你只需要手动指定列表URL。
列表规则完成后,开始编写文章URL匹配规则,返回文章List页面
右击查看源文件。查找区域开头的HTML,即查找文章列表开头的标记。
我们可以很容易地找到图中的“”。从这里开始,以下是文章的列表
让我们找到文章列表末尾的HTML
就是这样,一个容易找到的标志
如果链接收录图片:不要为缩略图处理采集。根据您的需要选择。
重新过滤区域网址:
(使用正则表达式)
必须包括:(优先级高于后者)
不能收录:
打开源文件,我们可以清楚地看到文章链接都是以.html结尾的
所以,我们在 must include 之后填写 .html。如果遇到一些很麻烦的列表,也可以填写以下不能收录的内容
我们点击保存设置进入下一步,可以看到我们获取到的文章网址
看到这些是对的,我们保存信息,进入下一步设置内容字段获取规则
看看文章有没有分页,直接输入一篇文章文章看看。 我们看到文章这里没有分页
所以我们默认了
我们现在找文章title等,随便输入一篇文章文章,右键查看源文件
看看这些
按照源码填写
我们重新填写文章内容的开头和结尾
同上,求开始和结束标志
你要过滤文章什么,在过滤规则里写就行了,比如你要过滤文章中的图片
选择常用规则
再次检查IMG然后确认
这样我们就过滤了文本中的图片
设置完成后,点击保存设置并预览
写了这样的采集规则。这很简单。一些网站很难写,但我需要多做一点。
保存并启动采集——启动采集webpage 过一会儿,功夫就采集完了
来看看我们采集到达的文章
好像成功了,导出数据
首先选择您要导入的列,在那里按“请选择”,您可以在弹出的窗口中选择您需要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入默认为30个。你是否修改它并不重要。附加选项一般选择“排除重复标题”。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键词。