dedecms织梦采集功能的使用方式（二） | 我是程序员

优采云发布时间: 2020-07-18 08:05

　　[内容]”作为文章标题的匹配规则。如果在文章标题中富含相关链接等，可使用过滤规则加以处理，这里无需设置。填写后，如图24所示，

　　图24-文章标题的采集规则

　　如上图23所示，在“作者：”二字前面有一组标签“”，以此推测，作者名将会写在这组标签之间。同样，为了保持唯一性，这里应填写”作者：[内容]“作为文章作者的采集规则。谨慎起见，请依照文章列表中其他文章内容页面核实此采集规则是否正确。这里不需要使用过滤规则。填写后，如图25所示，

　　图25-文章作者的采集规则

　　在上图23中，可发觉“来源：”二字前面有一组标签“”，以此推测，来源内容将会写在这组标签之间。与2.1.2处理方法相同，为了保持唯一性，文章来源的采集规则应为“来源：[内容]“。同样，这里也不需要使用过滤规则。填写后，如图26所示，

　　图26-文章来源的采集规则

　　再次回到图23，找到“发表于：”及其后的“2009-09-29 14:21”，与之前获取采集规则方式相同，此处应把“发表于： [内容]”作为发布时间的采集规则。同样，这里也不需要使用过滤规则。填写后，如图27所示，

　　图27-文章发布时间的采集规则

　　这个部份是编撰采集规则的重点，也是难点。需要非常注意。

　　具体操作步骤：

　　（a）回到正在打开的文章内容页面的源代码，找到文章内容的开始部份“Dreamweaver升级到8.0.2后”，如图28所示，

　　图28-文章内容的开始部份

　　注意：在源代码中，有两处都出现了这句话。其中，第一句在“

　　”之后，第二句在“

　　”之后。通过对比文章内容页面及其源代码，不难发觉，第一处实为摘要，第二处才为文章内容的开始部份。因此，应选定“

　　”为匹配规则的开始部份。

　　（b）找到文章内容的结束部份“同样是添加值为“transparent”的“wmode”参数。”，如图29所示，

　　图29-文章内容的结束部份

　　注意：由于结束部份的最后标签为”

　　”，而此标签在文章内容中多次出现。因此织梦采集规则中分页，不能作为采集规则的结束标签。考虑到应与文章内容的开始部份相对应，经对比和剖析后得出，此处应选定“

　　”作为文章内容的结束部份，如图30所示，

　　图30-文章内容匹配规则的结束部份

　　（c）综合（a）和（b）可知，此处文章内容的匹配规则应为“

　　[内容]

　　”，填写后，如图31所示，

　　图31-文章内容的匹配规则

　　这里占时不使用过滤规则，关于过滤规则的介绍和使用，将会置于单独的章节中。

　　到这儿，“新增采集节点：第二步设置内容数组获取规则”，就设置完成了。填写后，如（图32）所示，

　　图32-设置后的新增采集节点：第二步设置内容数组获取规则

　　检查无误后，单击“保存配置并预览”。如果之前设置正确，单击后织梦采集规则中分页，将会步入“新增采集节点：测试内容数组设置”页面并见到相应的文章内容。如（图33）所示，

　　图33-新增采集节点：测试内容数组设置

　　确定正确无误后，如果单击“仅保存”，系统将会提示“成功保存配置“并返回”采集节点管理“界面；如果单击“保存并开始采集“，将会步入”采集指定节点“界面。否则，请单击“返回上一步进行更改”。

　　关于第二节的介绍就到这儿。下面步入第三节。。。

　　站群快速安装采集侠的方式dedecms织梦5.7后台模块管理当中的模块列表显示空白的解决办法DedeCms教程:LuManager服务器管理软件安装DEDECMS软件DedeCms教程:Linux+Apache+PHP+MySQL服务器环境(CentOS篇)

　　共11人赞赏

0

2020-07-18

采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

dedecms织梦采集功能的使用方式（二） | 我是程序员

0 个评论

发起人

AI时代内容工厂

dedecms织梦采集功能的使用方式（二） | 我是程序员

0 个评论

发起人

相关问题