文章采集规则(易优cms——安全好用，商用授权只需要188元)

优采云发布时间: 2021-12-22 10:04

　　易友cms——安全易用，商业授权仅需188元，网址：

　　前言：本文为“常用采集方法与分页”的第二部分。在上一节的基础上，本节将新增采集节点第二步：“设置字段获取规则”进行详细介绍。为了与上一篇保持一致，本文将继续使用上一章的标记。

　　继续第一部分。

　　2.1 新建采集节点：第二步设置内容字段获取规则

　　点击“保存信息，进入下一步设置”后，可以进入“新建采集节点：第二步设置内容字段获取规则”页面，如图（图14），

　　（本图来源于网络，如有侵权请联系删除！）

　　图14-设置内容字段获取规则

　　系统会自动分配一个“预览网址”，通常是文章列表页第一篇文章文章的网址。不过由于第一篇文章没有涉及分页部分，所以手动改成，第二篇文章 URL:""，改后如图（图15）显示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图15-更改后的预览地址

　　让我们为分页部分设置匹配规则。具体步骤如下：

　　打开文章内容页面，在网页上右击，在弹出的对话框中点击“查看源文件”。在源码中，找到分页码的开头和结尾，如图（图16）,

　　（本图来源于网络，如有侵权请联系删除！）

　　图 16-分页代码

　　经过观察，可以看出分页码位于“

　　“和”

　　”。因此，在“内容分页导航所在区域的匹配规则”中，应填写“

　　[内容]

　　”。对于分页码的样式，一共有三种可以选择，这里应该选择第一个“List of all paging”。填写后，如图（图17）,

　　（本图来源于网络，如有侵权请联系删除！）

　　图17-设置后的Web内容获取规则

　　对于“固定采集项目”中的“内容摘要、关键词和缩略图”三部分，系统会使用常规规则进行自动匹配，这里只需要配置过滤内容即可。下面主要介绍如何获取“文章标题、文章作者、文章出处、发布时间、文章内容”的采集规则。过滤规则只是简单地涉及。

　　2.1.1 获取文章标题的采集规则

　　首先打开“预览网址”页面，右键，选择“查看源代码”，找到文章标题“OpenFlow网络是空谈吗？”，如图（图18）@ >,

　　（本图来源于网络，如有侵权请联系删除！）

　　图18-源码中的文章标题

　　这里的文章标题在“”之间，所以这里要填“[Content]”作为文章标题的匹配规则。如果文章的标题中有相关链接，可以使用过滤规则进行处理，这里不需要设置。填写后，如图（图19），

　　（本图来源于网络，如有侵权请联系删除！）

　　图19-采集文章 Title 的规则

　　2.1.2 获取文章作者的采集规则

　　搜索源码，对比原文的标题部分，可以发现本文不涉及文章的作者，所以这里不用填写，留空即可。

　　2.1.3 从文章的源码中获取采集规则

　　在上面的图19中，可以发现source的内容在“source:”和“”之间，所以这里要填写“source:[content]”作为文章source采集@ > 规则。同样，这里也不需要使用过滤规则。填充后，如图20所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图20-文章源代码中的采集规则

　　2.1.4 获取文章采集发布时间规则

　　再次回到图17，可以找到“Time: 2011-05-13 11:47”，所以这里应该使用“Time: [Content]”作为发布时间的采集规则。同样，这里也不需要使用过滤规则。填充后，如图21所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图21-文章发布时间的采集规则

　　2.1.5 采集获取文章内容的规则

　　这部分是编写采集规则的重点和难点。需要特别注意。

　　具体步骤：

　　(A) 在打开的文章内容页面的源码中，找到文章《计算机网络知识的学习》内容的开头部分，如图22所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图22-文章内容的开头

　　这里，“”应该作为匹配规则的开始部分。注意这段代码收录一段广告代码，需要通过过滤规则去除。经过观察，发现这个JS广告代码位于“

　　“和”

　　”。因此，您应该填写“过滤规则”：“{dede:trim replace=''}

　　(.*)

　　”{/Dede:trim}。填写后，如图（图23），

　　（本图来源于网络，如有侵权请联系删除！）

　　图23-开头的匹配规则和过滤规则

　　(B) 找到文章内容的结尾部分。因为涉及到分页部分，所以要选择分页结束的位置，如图24所示，

　　（本图来源于网络，如有侵权请联系删除！）

　　图24-文章的内容结束

　　这里应该选择“”作为文章内容的结尾。由于选中的内容收录一段JS代码，需要再次使用过滤规则将其删除。同时考虑到本页不涉及分页，分页码中的空格为空。但是，如果页面收录分页，则也应使用过滤规则将其删除。另外，如果文章的设置内容中收录了采集不想看到的图片、链接等内容，也应该使用过滤规则将其去除。填写后，如图（图25），

　　（本图来源于网络，如有侵权请联系删除！）

　　图25-文章的内容匹配规则

　　至此，“新建采集节点：第二步设置内容字段获取规则”，设置完成。看一下整个配置页面，如图（图26），

　　（本图来源于网络，如有侵权请联系删除！）

　　图26-设置后新添加的采集节点：第二步设置内容字段获取规则

　　检查无误后，点击“保存配置并预览”。如果之前的设置正确，点击后会进入“新建采集节点：测试内容字段设置”页面，看到对应的文章内容。如图（图27）和（图28）@>，

　　（本图来源于网络，如有侵权请联系删除！）

　　图27-新建采集节点：测试内容字段设置

　　（本图来源于网络，如有侵权请联系删除！）

　　图28-新建采集节点：测试内容字段设置

　　其中，图中圈出的地方代表分页符。

　　确认无误后，点击“只保存”，系统会提示“保存配置成功”，返回“采集节点管理”界面；如果单击“保存并启动采集”，您将进入“采集指定节点”界面。否则请点击“返回上一步修改”。

　　第二部分的介绍到此结束。现在进入第三部分。. .

　　上一篇：dedecms织梦采集函数教程-常用文章带分页采集(三）

　　下一篇：德德cms织梦采集函数教程-通用文章(一）

　　免责声明：本站所有文章及图片均来自用户分享和网络采集。文章及图片版权归原作者所有。仅供学习和参考。请不要将它们用于商业目的。如果您的权益受到损害，请联系网站客服。

　　Eyoucms，简单易用的企业网站管理系统，点击了解更多

　　有问题可以加入织梦技术QQ群一起交流学习

　　本站VIP会员请加入dede58 VIP②群 PS：加入时请备注用户名或昵称

　　普通注册会员或访客请加入dede58技术交流②群

0

2021-12-22

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集规则(易优cms——安全好用，商用授权只需要188元)

0 个评论

发起人

AI时代内容工厂

文章采集规则(易优cms——安全好用，商用授权只需要188元)

0 个评论

发起人

相关问题