文章采集规则(dedecms自带文章和图片采集功能详解(一)(图) )

优采云 发布时间: 2021-12-25 04:17

  文章采集规则(dedecms自带文章和图片采集功能详解(一)(图)

)

  如果要转载其他网站的文章,我们不需要来回复制,dedecms自带文章和图片采集的功能,对于不熟悉的人来说,采集规则配置起来很麻烦,而且在采集的时候经常会出错或者乱码,现在给大家介绍一下dedecms的< @采集 功能。

  1 打开新建节点菜单,打开后台->采集->采集节点管理,点击添加新节点

  

  2选择型号

  

  3 新建节点-配置URL索引填写采集的网站列表的相关规则,

  

  4 查看采集站点的代码和网站的源代码。我们右键点击查看源码。在源码的开头,找到一个带有charset=a代码的meta标签,比如charset="gb2312",这就是第二步提到的网站编码

  

  5 新增节点配置文章 URL 匹配规则。我们查看采集站点的列表页面源码,找到文章列表start html和end html标签,复制到添加采集Node->文章 URL匹配规则的“区域开头的HTML”和“区域结尾的HTML”输入框。不用右击查看源码就可以找到文章列表的开始标签。可以在文章开头右键查看元素(chrome浏览器,firefox是查看元素),比较方便我找到了文章@开头和结尾的标签> 列表。设置好后,我们点击“保存信息,进入下一步设置”

  

  6 URL获取规则测试 如果在测试结果中发现不相关的URL信息,说明第五步的URL过滤规则有误或者过滤规则没有填写。 如果发现采集有错误,您可以返回上次修改,如果没有,请单击“保存信息并进入下一个设置”。

  

  7 内容字段获取规则我们查看采集网站的文章源码,找到相关选项的开始和结束html标签,填写指定位置,开始和结束标签用“[内容]”。设置好后,我们点击“保存配置并预览”

  

  8 过滤规则 在第七步的匹配规则之后,还有一个过滤规则,用于过滤不需要采集的内容。比如网易文章的每一篇文章,都有一个iframe标签来投放广告。我们要采集网易的文章。是不可能的。采集回来后,我们要一一去。删除此广告。但是如何去除呢?去除方法是过滤规则。当我们点击常用规则时,会弹出一个小窗口,列出常用的过滤规则。我们只需要点击我们想要过滤的规则。要过滤网易文章中的iframe标签,我们直接点击iframe即可。

  

  9 测试内容字段设置,因为网易有文章开头

  , 一些 文章 以

  ,所以会出现采集错误。如果你现在想采集,你可以点击保存和采集。这里我选择只保存

  

  10采集内容(一)回到采集节点管理界面,也就是第一步的界面,我们选择节点点击采集

  

  11采集内容(二)

  

  12 查看下载的文件,可以点击采集界面(第十步界面)右上角的“查看已下载”。也可以在“采集节点管理”界面点击“查看已下载”。以第二种方法为例。

  

  13导出内容选择要导入的列,数据量,是否生成html文件,随机推荐个数

  

  14 最终结果

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线