采集文章工具(下织梦后台自带采集功能使用方法,dedecms自带文章和图片采集 )

优采云 发布时间: 2021-12-24 15:05

  采集文章工具(下织梦后台自带采集功能使用方法,dedecms自带文章和图片采集

)

  织梦后台自带一个工具采集,不过大家好像很陌生,可能是因为不实用,或者市场上可能有更好的工具可以替代,最后一个教程最详细优采云Data采集System Dedecms发布了文章的策略,我们今天也介绍了织梦后台自带采集的使用功能,dedecms自带文章和图片采集的功能。对于不熟悉建站的新手来说,采集的规则配置起来非常麻烦,经常在采集处出现错误。还是乱码,赶紧把dedecms的采集功能介绍给你的朋友吧。

  一、进入采集节点管理界面,在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面。

  

  二、在采集节点管理界面,点击左下角的“添加新节点”或右上角的“添加新节点”,如图,可以进入“选择Content Model”界面,如图所示,

  

  三、设置节点基本信息

  

  四、目标页面编码:设置采集目标页面的编码格式,包括GB2312、UTF8和BIG5。在采集的目标页面右击,选择“查看源文件”即可获得。

  脚步:

  (A) 打开采集的目标页面:网站域名/知识/web-based/dreamweaver/;

  右键单击并选择“查看源文件”,找到“字符集

  

  五、 等号后面的代码是需要的“编码格式”,这里是“gb2312”。

  “区域匹配模式”:设置如何匹配需要的采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。

  “内容导入顺序”:指定导入文章列表时的顺序。可以选择“与目标站一致”或“反向到目标站”。

  “防盗链模式”:目标站点是否有刷新限制采集。一开始很难说,需要测试一下才知道。如果是这样,您需要在此处设置“资源下载超时时间”。

  “引用网址”:填写任意文章内容页面的网址,即采集。

  在打开的文章列表页面,点击第一篇文章

  

  六、此时浏览器的网址地址栏显示的网址就是“参考网址”中需要填写的网址,如图(图)

  

  七、这里设置了“节点基本信息”。最终结果,如图(图),

  

  八、检查后,进入下一步。设置列表 URL 获取规则

  

  这里是设置采集的文章列表页的匹配规则。如果采集的文章的列表页面有一定的样式,可以选择“批量生成列表URL”;如果采集的文章的列表页面完全没有规则,那么可以选择“手动指定列表URL”;如果采集的站点提供RSS,您可以选择“从RSS获取”。对于特殊情况,例如:列表页面部分规则,其余部分不规则,您可以在“匹配URL”中填写规则部分,然后在“手动指定URL”中填写不规则部分.

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线