采集 文章(2.1.4获取文章发布时间的采集规则再次回到图23,找到)

优采云 发布时间: 2022-01-22 00:04

  采集 文章(2.1.4获取文章发布时间的采集规则再次回到图23,找到)

  2.1.4 获取文章的发布时间的采集规则

  再次回到图23,找到“Published in:”和下面的“2009-09-29 14:21”,和前面获取采集规则的方法一样,这里应该是“Published in: [Content] ”作为发布时间的采集规则。同样,这里不需要使用过滤规则。填写后,如图27所示,

  

  图 27 - 文章 发布时间的 采集 规则

  2.1.5 采集 访问文章 内容的规则

  这部分是编写采集规则的重点和难点。需要特别注意。

  具体步骤:

  (a) 回到打开文章内容页面的源代码,找到文章内容的开头“Dreamweaver升级到8.0.2后”,如图28所示,

  

  图 28 - 文章 内容的开头

  注意:这句话出现在源代码的两个地方。其中,“

  “,”中的第二句

  “之后。通过对比文章内容页面及其源码,不难发现,第一名其实是摘要,第二名是文章内容的开头。因此,您应该选择“

  ”是匹配规则的开始。

  (b) 找到文章的内容结尾“也加上值为”transparent”的”wmode”参数,如图29,

  

  图 29 - 文章 内容结束

  注意:由于结束部分的最后一个标签是“

  ",并且该标签在文章内容中出现多次,因此不能作为采集规则的结束标签,考虑到应该对应文章@的开头> 内容、对比和分析后得出的结论是“

  ”作为文章内容的结尾,如图30所示,

  

  图 30 - 文章 内容匹配规则结束

  (c) 结合(a)和(b)可以看出这里文章的内容的匹配规则应该是"

  [内容]

  ”,填充后,如图31所示,

  

  图 31 - 文章 内容的匹配规则

  此处不使用过滤规则。过滤规则的介绍和使用将放在单独的章节中。

  至此,“添加一个采集节点:第二步设置内容字段获取规则”,设置完成。填写后,如图(图32),

  

  图32 - 设置后新增采集节点:第二步设置内容字段获取规则

  检查后,单击“保存配置和预览”。如果之前的设置正确,点击后会进入“添加采集节点:测试内容字段设置”页面,看到对应的文章内容。如图(图33),

  

  图 33 - 新 采集 节点:测试内容字段设置

  确认无误后,如果点击“仅保存”,系统会提示“成功保存配置”并返回“采集节点管理”界面;点击“保存并启动采集”,进入“采集指定节点”界面。否则,单击返回上一步进行更改。

  第二部分的介绍就到这里了。进入下面的第三部分。. .

  

  Dede的功能如何使用cms采集---普通的文章不分页(三)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线