dedecms织梦采集功能的使用方式(二) | 我是程序员
优采云 发布时间: 2020-07-18 08:05
[内容]”作为文章标题的匹配规则。如果在文章标题中富含相关链接等,可使用过滤规则加以处理,这里无需设置。填写后,如图24所示,
图24-文章标题的采集规则
如上图23所示,在“作者:”二字前面有一组标签“”,以此推测,作者名将会写在这组标签之间。同样,为了保持唯一性,这里应填写”作者:[内容]“作为文章作者的采集规则。谨慎起见,请依照文章列表中其他文章内容页面核实此采集规则是否正确。这里不需要使用过滤规则。填写后,如图25所示,
图25-文章作者的采集规则
在上图23中,可发觉“来源:”二字前面有一组标签“”,以此推测,来源内容将会写在这组标签之间。与2.1.2处理方法相同,为了保持唯一性,文章来源的采集规则应为“来源:[内容]“。同样,这里也不需要使用过滤规则。填写后,如图26所示,
图26-文章来源的采集规则
再次回到图23,找到“发表于:”及其后的“2009-09-29 14:21”,与之前获取采集规则方式相同,此处应把“发表于: [内容]”作为发布时间的采集规则。同样,这里也不需要使用过滤规则。填写后,如图27所示,
图27-文章发布时间的采集规则
这个部份是编撰采集规则的重点,也是难点。需要非常注意。
具体操作步骤:
(a)回到正在打开的文章内容页面的源代码,找到文章内容的开始部份“Dreamweaver升级到8.0.2后”,如图28所示,
图28-文章内容的开始部份
注意:在源代码中,有两处都出现了这句话。其中,第一句在“
”之后,第二句在“
”之后。通过对比文章内容页面及其源代码,不难发觉,第一处实为摘要,第二处才为文章内容的开始部份。因此,应选定“
”为匹配规则的开始部份。
(b)找到文章内容的结束部份“同样是添加值为“transparent”的“wmode”参数。”,如图29所示,
图29-文章内容的结束部份
注意:由于结束部份的最后标签为”
”,而此标签在文章内容中多次出现。因此织梦采集规则中分页,不能作为采集规则的结束标签。考虑到应与文章内容的开始部份相对应,经对比和剖析后得出,此处应选定“
”作为文章内容的结束部份,如图30所示,
图30-文章内容匹配规则的结束部份
(c)综合(a)和(b)可知,此处文章内容的匹配规则应为“
[内容]
”,填写后,如图31所示,
图31-文章内容的匹配规则
这里占时不使用过滤规则,关于过滤规则的介绍和使用,将会置于单独的章节中。
到这儿,“新增采集节点:第二步设置内容数组获取规则”,就设置完成了。填写后,如(图32)所示,
图32-设置后的新增采集节点:第二步设置内容数组获取规则
检查无误后,单击“保存配置并预览”。如果之前设置正确,单击后织梦采集规则中分页,将会步入“新增采集节点:测试内容数组设置”页面并见到相应的文章内容。如(图33)所示,
图33-新增采集节点:测试内容数组设置
确定正确无误后,如果单击“仅保存”,系统将会提示“成功保存配置“并返回”采集节点管理“界面;如果单击“保存并开始采集“,将会步入”采集指定节点“界面。否则,请单击“返回上一步进行更改”。
关于第二节的介绍就到这儿。下面步入第三节。。。
站群快速安装采集侠的方式dedecms织梦5.7后台模块管理当中的模块列表显示空白的解决办法DedeCms教程:LuManager服务器管理软件安装DEDECMS软件DedeCms教程:Linux+Apache+PHP+MySQL服务器环境(CentOS篇)
共11人赞赏