文章采集功能(2.1.4获取文章发布时间的采集规则再次回到图23,找到)
优采云 发布时间: 2021-11-22 16:12文章采集功能(2.1.4获取文章发布时间的采集规则再次回到图23,找到)
2.1.4 获取文章采集发布时间规则
再次回到图23,找到“Published in:”和后面的“2009-09-29 14:21”,和前面获取采集规则的方法一样,这里应该是“Published” in: [Content] "作为采集发布时间规则。同样,这里也不需要使用过滤规则。填充后,如图27所示,
图27-文章发布时间的采集规则
2.1.5 采集获取文章内容的规则
这部分是编写采集规则的重点和难点。需要特别注意。
具体步骤:
(一)回到开篇文章内容页的源码,找到文章内容的开头部分《Dreamweaver升级到8.0.2之后》 ,如图28所示,
图28-文章内容的开头
注意:这句话在源码中出现了两处。其中,第一句在“
在“之后,第二句在”
”之后。通过对比文章的内容页和它的源码,不难发现第一部分其实是一个摘要,第二部分是文章@内容的开头>. 因此,您应该选择“
”是匹配规则的开始。
(B) 找到文章内容的结尾部分“也是”wmode”参数加上了“transparent”的值”,如图29所示,
图29-文章的内容结束
注意:由于结束部分的最后一个标签是“
”,并且这个标签在文章的内容中出现多次,所以不能作为采集规则的结束标签。考虑到它应该对应<的内容的开头@文章,经过对比和分析,得出的结论是这里应该选“
”作为文章的内容结束,如图30所示,
图30-文章内容匹配规则结束
(C) 结合(a)和(b),可以看出这里文章的内容匹配规则应该是"
[内容]
》,填写后,如图31所示,
图31-文章的内容匹配规则
此处不使用过滤规则。过滤规则的介绍和使用将放在单独的章节中。
至此,“新建采集节点:第二步设置内容字段获取规则”,设置完成。填写后,如图(图32),
图32-设置后新增采集节点:第二步设置内容字段获取规则
检查无误后,点击“保存配置并预览”。如果之前的设置正确,点击后会进入“新建采集节点:测试内容字段设置”页面,看到对应的文章内容。如图(图33),
图33-新建采集节点:测试内容字段设置
确认无误后,点击“只保存”,系统会提示“保存配置成功”,返回“采集节点管理”界面;如果单击“保存并启动采集”,您将进入“采集 指定节点”界面。否则请点击“返回上一步修改”。
第二部分的介绍到此结束。现在进入第三部分。. .
这篇文章的链接:
相关文章
网站类别
最近发表