文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)

优采云 发布时间: 2021-09-11 10:11

  文章采集完(1000多套织梦免费模板采集教程——织梦采集的方法)

  大西北织梦免费模板网更新了1000多套织梦免费模板,今天给大家说说dedecms采集的方法。

  最新版织梦5.7采集tutorial——dedecms采集tutorial——织梦采集tutorial。

  一、Create采集

  首先我们打开织梦Background,点击采集——采集节点管理——添加一个新节点

  这里以采集普通文章为例,我们选择普通文章,然后确认

  我们进入采集的设置页面,填写节点名称,也就是给这个新节点起个名字,这里可以随意填写。

  二、modify采集结点

  然后打开你想要的文章列表页面采集,这里我们以站长专区为例

  目标节点:老班采集要的是站长专区的HTML教程版块文章content

  目标网址:l/

  步骤如下:

  (1)打开这个页面,右键查看源文件

  找到目标页面编码,就在charset之后

  一般会忽略页面的基本信息,填写后如图。

  现在我们来填写列表网址获取规则

  查看文章列表第二页地址

  l/list_22_2.html

  比较第三页的地址

  l/list_22_3.html

  我们发现除了22_后面的数字是一样的,所以我们可以这样写

  l/list_22_(*).html

  就用(*)代替1吧,因为只有2页,所以我们从1填到2,每页递增,当然1,2-1...等于1,对吧

  到此我们完成了。

  可能大家采集对某些列表没有规则,所以只需要手动指定列表URL即可,如图

  每行写一个页面地址

  列表规则完成后,开始编写文章URL匹配规则,返回文章List页面

  右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。

  我们可以很容易地找到“

  ”。从这里开始,以下是文章的列表

  让我们找到文章列表末尾的HTML

  就是这样,一个易于查找的徽标。

  然后填写以下数据:

  如果链接收录图片:

  不要把采集处理成缩略图,这里根据你的需要选择

  重新过滤区域网址:

  (使用正则表达式)

  必须包括:(优先级高于后者)

  不能收录:

  打开源文件,可以清楚地看到文章链接都是以.html结尾的

  所以,我们必须在最后填写.html。如果遇到一些比较麻烦的列表,也可以在最后填写不收录。

  我们点击保存设置进入下一步,可以看到我们获取到的文章网址

  看对了,我们保存信息,进入下一步。

  三、设置内容字段获取规则

  检查文章是否有分页,输入一篇文章文章看看。 我们看到文章没有分页。

  所以我们默认了

  找文章title等,随便输入一篇文章文章,右键查看源文件

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线