文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)
优采云 发布时间: 2021-09-11 10:11文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)
大西北织梦免费模板网更新了1000多套织梦免费模板,今天给大家说说dedecms采集的方法。
最新版织梦5.7采集tutorial——dedecms采集tutorial——织梦采集tutorial。
一、Create采集
首先我们打开织梦Background,点击采集——采集节点管理——添加一个新节点
这里以采集普通文章为例,我们选择普通文章,然后确认
我们进入采集的设置页面,填写节点名称,也就是给这个新节点起个名字,这里可以随意填写。
二、modify采集结点
然后打开你想要的文章列表页面采集,这里我们以站长专区为例
目标节点:老班采集要的是站长专区的HTML教程版块文章content
目标网址:l/
步骤如下:
(1)打开这个页面,右键查看源文件
找到目标页面编码,就在charset之后
一般会忽略页面的基本信息,填写后如图。
现在我们来填写列表网址获取规则
查看文章列表第二页地址
l/list_22_2.html
比较第三页的地址
l/list_22_3.html
我们发现除了22_后面的数字是一样的,所以我们可以这样写
l/list_22_(*).html
就用(*)代替1吧,因为只有2页,所以我们从1填到2,每页递增,当然1,2-1...等于1,对吧
到此我们完成了。
可能大家采集对某些列表没有规则,所以只需要手动指定列表URL即可,如图
每行写一个页面地址
列表规则完成后,开始编写文章URL匹配规则,返回文章List页面
右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。
我们可以很容易地找到“
”。从这里开始,以下是文章的列表
让我们找到文章列表末尾的HTML
就是这样,一个易于查找的徽标。
然后填写以下数据:
如果链接收录图片:
不要把采集处理成缩略图,这里根据你的需要选择
重新过滤区域网址:
(使用正则表达式)
必须包括:(优先级高于后者)
不能收录:
打开源文件,可以清楚地看到文章链接都是以.html结尾的
所以,我们必须在最后填写.html。如果遇到一些比较麻烦的列表,也可以在最后填写不收录。
我们点击保存设置进入下一步,可以看到我们获取到的文章网址
看对了,我们保存信息,进入下一步。
三、设置内容字段获取规则
检查文章是否有分页,输入一篇文章文章看看。 我们看到文章没有分页。
所以我们默认了
找文章title等,随便输入一篇文章文章,右键查看源文件