文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)

优采云发布时间: 2021-09-11 10:11

　　大西北织梦免费模板网更新了1000多套织梦免费模板，今天给大家说说dedecms采集的方法。

　　最新版织梦5.7采集tutorial——dedecms采集tutorial——织梦采集tutorial。

　　一、Create采集

　　首先我们打开织梦Background，点击采集——采集节点管理——添加一个新节点

　　这里以采集普通文章为例，我们选择普通文章，然后确认

　　我们进入采集的设置页面，填写节点名称，也就是给这个新节点起个名字，这里可以随意填写。

　　二、modify采集结点

　　然后打开你想要的文章列表页面采集，这里我们以站长专区为例

　　目标节点：老班采集要的是站长专区的HTML教程版块文章content

　　目标网址：l/

　　步骤如下：

　　(1)打开这个页面，右键查看源文件

　　找到目标页面编码，就在charset之后

　　一般会忽略页面的基本信息，填写后如图。

　　现在我们来填写列表网址获取规则

　　查看文章列表第二页地址

　　l/list_22_2.html

　　比较第三页的地址

　　l/list_22_3.html

　　我们发现除了22_后面的数字是一样的，所以我们可以这样写

　　l/list_22_(*).html

　　就用(*)代替1吧，因为只有2页，所以我们从1填到2，每页递增，当然1，2-1...等于1，对吧

　　到此我们完成了。

　　可能大家采集对某些列表没有规则，所以只需要手动指定列表URL即可，如图

　　每行写一个页面地址

　　列表规则完成后，开始编写文章URL匹配规则，返回文章List页面

　　右键查看源文件，找到区域开头的HTML，也就是找到文章列表开头的标记。

　　我们可以很容易地找到“

　　”。从这里开始，以下是文章的列表

　　让我们找到文章列表末尾的HTML

　　就是这样，一个易于查找的徽标。

　　然后填写以下数据：

　　如果链接收录图片：

　　不要把采集处理成缩略图，这里根据你的需要选择

　　重新过滤区域网址：

　　（使用正则表达式）

　　必须包括：（优先级高于后者）

　　不能收录：

　　打开源文件，可以清楚地看到文章链接都是以.html结尾的

　　所以，我们必须在最后填写.html。如果遇到一些比较麻烦的列表，也可以在最后填写不收录。

　　我们点击保存设置进入下一步，可以看到我们获取到的文章网址

　　看对了，我们保存信息，进入下一步。

　　三、设置内容字段获取规则

　　检查文章是否有分页，输入一篇文章文章看看。我们看到文章没有分页。

　　所以我们默认了

　　找文章title等，随便输入一篇文章文章，右键查看源文件

0

2021-09-11

文章采集完

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)

0 个评论

发起人

AI时代内容工厂

文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)

0 个评论

发起人

相关问题