文章采集规则(dedecms自带文章和图片采集功能详解(一)(图) )
优采云 发布时间: 2021-12-25 04:17文章采集规则(dedecms自带文章和图片采集功能详解(一)(图)
)
如果要转载其他网站的文章,我们不需要来回复制,dedecms自带文章和图片采集的功能,对于不熟悉的人来说,采集规则配置起来很麻烦,而且在采集的时候经常会出错或者乱码,现在给大家介绍一下dedecms的< @采集 功能。
1 打开新建节点菜单,打开后台->采集->采集节点管理,点击添加新节点
2选择型号
3 新建节点-配置URL索引填写采集的网站列表的相关规则,
4 查看采集站点的代码和网站的源代码。我们右键点击查看源码。在源码的开头,找到一个带有charset=a代码的meta标签,比如charset="gb2312",这就是第二步提到的网站编码
5 新增节点配置文章 URL 匹配规则。我们查看采集站点的列表页面源码,找到文章列表start html和end html标签,复制到添加采集Node->文章 URL匹配规则的“区域开头的HTML”和“区域结尾的HTML”输入框。不用右击查看源码就可以找到文章列表的开始标签。可以在文章开头右键查看元素(chrome浏览器,firefox是查看元素),比较方便我找到了文章@开头和结尾的标签> 列表。设置好后,我们点击“保存信息,进入下一步设置”
6 URL获取规则测试 如果在测试结果中发现不相关的URL信息,说明第五步的URL过滤规则有误或者过滤规则没有填写。 如果发现采集有错误,您可以返回上次修改,如果没有,请单击“保存信息并进入下一个设置”。
7 内容字段获取规则我们查看采集网站的文章源码,找到相关选项的开始和结束html标签,填写指定位置,开始和结束标签用“[内容]”。设置好后,我们点击“保存配置并预览”
8 过滤规则 在第七步的匹配规则之后,还有一个过滤规则,用于过滤不需要采集的内容。比如网易文章的每一篇文章,都有一个iframe标签来投放广告。我们要采集网易的文章。是不可能的。采集回来后,我们要一一去。删除此广告。但是如何去除呢?去除方法是过滤规则。当我们点击常用规则时,会弹出一个小窗口,列出常用的过滤规则。我们只需要点击我们想要过滤的规则。要过滤网易文章中的iframe标签,我们直接点击iframe即可。
9 测试内容字段设置,因为网易有文章开头
, 一些 文章 以
,所以会出现采集错误。如果你现在想采集,你可以点击保存和采集。这里我选择只保存
10采集内容(一)回到采集节点管理界面,也就是第一步的界面,我们选择节点点击采集
11采集内容(二)
12 查看下载的文件,可以点击采集界面(第十步界面)右上角的“查看已下载”。也可以在“采集节点管理”界面点击“查看已下载”。以第二种方法为例。
13导出内容选择要导入的列,数据量,是否生成html文件,随机推荐个数
14 最终结果