网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程,附上了详细图文介绍)

优采云 发布时间: 2021-09-08 14:03

  网站程序自带的采集器采集文章(dedecms织梦自带的采集插件使用教程,附上了详细图文介绍)

  众所周知,网站优化比较麻烦的就是更新文章,尤其是手头网站数量多的时候,一个网站更新1-2篇文章每天。当网站超过十二十个的时候,很难每天保持更新。因为每个seo/'target='_blank'>优化器的能量太有限了。今天三哥来给大家分享一个dedecms织梦自带的采集插件的使用教程,并附上详细的图文介绍。希望能帮助到更多像三哥一样使用织梦程序的朋友。

  首先我们打开织梦Background,点击采集——采集节点管理——添加一个新节点

  

  这里以采集普通文章为例,我们选择普通文章,然后确认

  

  我们进入采集的设置页面,填写节点名称,就是给这个新节点起一个名字。你可以在这里填写。

  然后打开你想要的采集的文章列表页面,这里我们以三哥采集除了甲醛网站的一个为例打开这个页面,右键查看源文件

  找到目标页面编码,就在charset之后

  

  一般不关心页面的其他基本信息,如图填写

  

  现在我们来填写列表网址获取规则

  查看文章列表第一页的地址

  比较第二页的地址

  我们发现除了news_后面的数字是一样的,所以我们可以这样写

  (*).html

  用(*)代替1,因为只有2页,所以我们从1到2填,每页加1,当然2-1...等于1,对

  到此我们完成了。

  也许每个人采集对某些列表没有规则,所以你只需要手动指定列表URL。

  列表规则完成后,开始编写文章URL匹配规则,返回文章List页面

  右击查看源文件。查找区域开头的HTML,即查找文章列表开头的标记。

  我们可以很容易地找到图中的“”。从这里开始,以下是文章的列表

  

  让我们找到文章列表末尾的HTML

  

  就是这样,一个容易找到的标志

  如果链接收录图片:不要为缩略图处理采集。根据您的需要选择。

  

  重新过滤区域网址:

  (使用正则表达式)

  必须包括:(优先级高于后者)

  不能收录:

  打开源文件,我们可以清楚地看到文章链接都是以.html结尾的

  

  所以,我们在 must include 之后填写 .html。如果遇到一些很麻烦的列表,也可以填写以下不能收录的内容

  我们点击保存设置进入下一步,可以看到我们获取到的文章网址

  看到这些是对的,我们保存信息,进入下一步设置内容字段获取规则

  看看文章有没有分页,直接输入一篇文章文章看看。 我们看到文章这里没有分页

  所以我们默认了

  我们现在找文章title等,随便输入一篇文章文章,右键查看源文件

  看看这些

  按照源码填写

  我们重新填写文章内容的开头和结尾

  同上,求开始和结束标志

  

  你要过滤文章什么,在过滤规则里写就行了,比如你要过滤文章中的图片

  选择常用规则

  再次检查IMG然后确认

  这样我们就过滤了文本中的图片

  设置完成后,点击保存设置并预览

  写了这样的采集规则。这很简单。一些网站很难写,但我需要多做一点。

  保存并启动采集——启动采集webpage 过一会儿,功夫就采集完了

  来看看我们采集到达的文章

  好像成功了,导出数据

  首先选择您要导入的列,在那里按“请选择”,您可以在弹出的窗口中选择您需要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入默认为30个。你是否修改它并不重要。附加选项一般选择“排除重复标题”。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线