文章采集功能(2.1.4获取文章发布时间的采集规则再次回到图23,找到)

优采云 发布时间: 2021-11-22 16:12

  文章采集功能(2.1.4获取文章发布时间的采集规则再次回到图23,找到)

  2.1.4 获取文章采集发布时间规则

  再次回到图23,找到“Published in:”和后面的“2009-09-29 14:21”,和前面获取采集规则的方法一样,这里应该是“Published” in: [Content] "作为采集发布时间规则。同样,这里也不需要使用过滤规则。填充后,如图27所示,

  

  图27-文章发布时间的采集规则

  2.1.5 采集获取文章内容的规则

  这部分是编写采集规则的重点和难点。需要特别注意。

  具体步骤:

  (一)回到开篇文章内容页的源码,找到文章内容的开头部分《Dreamweaver升级到8.0.2之后》 ,如图28所示,

  

  图28-文章内容的开头

  注意:这句话在源码中出现了两处。其中,第一句在“

  在“之后,第二句在”

  ”之后。通过对比文章的内容页和它的源码,不难发现第一部分其实是一个摘要,第二部分是文章@内容的开头>. 因此,您应该选择“

  ”是匹配规则的开始。

  (B) 找到文章内容的结尾部分“也是”wmode”参数加上了“transparent”的值”,如图29所示,

  

  图29-文章的内容结束

  注意:由于结束部分的最后一个标签是“

  ”,并且这个标签在文章的内容中出现多次,所以不能作为采集规则的结束标签。考虑到它应该对应<的内容的开头@文章,经过对比和分析,得出的结论是这里应该选“

  ”作为文章的内容结束,如图30所示,

  

  图30-文章内容匹配规则结束

  (C) 结合(a)和(b),可以看出这里文章的内容匹配规则应该是"

  [内容]

  》,填写后,如图31所示,

  

  图31-文章的内容匹配规则

  此处不使用过滤规则。过滤规则的介绍和使用将放在单独的章节中。

  至此,“新建采集节点:第二步设置内容字段获取规则”,设置完成。填写后,如图(图32),

  

  图32-设置后新增采集节点:第二步设置内容字段获取规则

  检查无误后,点击“保存配置并预览”。如果之前的设置正确,点击后会进入“新建采集节点:测试内容字段设置”页面,看到对应的文章内容。如图(图33),

  

  图33-新建采集节点:测试内容字段设置

  确认无误后,点击“只保存”,系统会提示“保存配置成功”,返回“采集节点管理”界面;如果单击“保存并启动采集”,您将进入“采集 指定节点”界面。否则请点击“返回上一步修改”。

  第二部分的介绍到此结束。现在进入第三部分。. .

  

  这篇文章的链接:

  相关文章

  

  网站类别

  

  最近发表

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线