文章采集规则(易优cms——安全好用,商用授权只需要188元)

优采云 发布时间: 2021-12-22 10:04

  文章采集规则(易优cms——安全好用,商用授权只需要188元)

  易友cms——安全易用,商业授权仅需188元,网址:

  前言:本文为“常用采集方法与分页”的第二部分。在上一节的基础上,本节将新增采集节点 第二步:“设置字段获取规则”进行详细介绍。为了与上一篇保持一致,本文将继续使用上一章的标记。

  继续第一部分。

  2.1 新建采集节点:第二步设置内容字段获取规则

  点击“保存信息,进入下一步设置”后,可以进入“新建采集节点:第二步设置内容字段获取规则”页面,如图(图14),

  

  (本图来源于网络,如有侵权请联系删除!)

  图14-设置内容字段获取规则

  系统会自动分配一个“预览网址”,通常是文章列表页第一篇文章文章的网址。不过由于第一篇文章没有涉及分页部分,所以手动改成,第二篇文章 URL:"",改后如图(图15)显示,

  

  (本图来源于网络,如有侵权请联系删除!)

  图15-更改后的预览地址

  让我们为分页部分设置匹配规则。具体步骤如下:

  打开文章内容页面,在网页上右击,在弹出的对话框中点击“查看源文件”。在源码中,找到分页码的开头和结尾,如图(图16),

  

  (本图来源于网络,如有侵权请联系删除!)

  图 16-分页代码

  经过观察,可以看出分页码位于“

  “和”

  ”。因此,在“内容分页导航所在区域的匹配规则”中,应填写“

  [内容]

  ”。对于分页码的样式,一共有三种可以选择,这里应该选择第一个“List of all paging”。填写后,如图(图17),

  

  (本图来源于网络,如有侵权请联系删除!)

  图17-设置后的Web内容获取规则

  对于“固定采集项目”中的“内容摘要、关键词和缩略图”三部分,系统会使用常规规则进行自动匹配,这里只需要配置过滤内容即可。下面主要介绍如何获取“文章标题、文章作者、文章出处、发布时间、文章内容”的采集规则。过滤规则只是简单地涉及。

  2.1.1 获取文章标题的采集规则

  首先打开“预览网址”页面,右键,选择“查看源代码”,找到文章标题“OpenFlow网络是空谈吗?”,如图(图18)@ >,

  

  (本图来源于网络,如有侵权请联系删除!)

  图18-源码中的文章标题

  这里的文章标题在“”之间,所以这里要填“[Content]”作为文章标题的匹配规则。如果文章的标题中有相关链接,可以使用过滤规则进行处理,这里不需要设置。填写后,如图(图19),

  

  (本图来源于网络,如有侵权请联系删除!)

  图19-采集 文章 Title 的规则

  2.1.2 获取文章作者的采集规则

  搜索源码,对比原文的标题部分,可以发现本文不涉及文章的作者,所以这里不用填写,留空即可。

  2.1.3 从文章的源码中获取采集规则

  在上面的图19中,可以发现source的内容在“source:”和“”之间,所以这里要填写“source:[content]”作为文章source采集@ > 规则。同样,这里也不需要使用过滤规则。填充后,如图20所示,

  

  (本图来源于网络,如有侵权请联系删除!)

  图20-文章源代码中的采集规则

  2.1.4 获取文章采集发布时间规则

  再次回到图17,可以找到“Time: 2011-05-13 11:47”,所以这里应该使用“Time: [Content]”作为发布时间的采集规则。同样,这里也不需要使用过滤规则。填充后,如图21所示,

  

  (本图来源于网络,如有侵权请联系删除!)

  图21-文章发布时间的采集规则

  2.1.5 采集获取文章内容的规则

  这部分是编写采集规则的重点和难点。需要特别注意。

  具体步骤:

  (A) 在打开的文章内容页面的源码中,找到文章《计算机网络知识的学习》内容的开头部分,如图22所示,

  

  (本图来源于网络,如有侵权请联系删除!)

  图22-文章内容的开头

  这里,“”应该作为匹配规则的开始部分。注意这段代码收录一段广告代码,需要通过过滤规则去除。经过观察,发现这个JS广告代码位于“

  “和”

  ”。因此,您应该填写“过滤规则”:“{dede:trim replace=''}

  (.*)

  ”{/Dede:trim}。填写后,如图(图23),

  

  (本图来源于网络,如有侵权请联系删除!)

  (本图来源于网络,如有侵权请联系删除!)

  图23-开头的匹配规则和过滤规则

  (B) 找到文章内容的结尾部分。因为涉及到分页部分,所以要选择分页结束的位置,如图24所示,

  

  (本图来源于网络,如有侵权请联系删除!)

  图24-文章的内容结束

  这里应该选择“”作为文章内容的结尾。由于选中的内容收录一段JS代码,需要再次使用过滤规则将其删除。同时考虑到本页不涉及分页,分页码中的空格为空。但是,如果页面收录分页,则也应使用过滤规则将其删除。另外,如果文章的设置内容中收录了采集不想看到的图片、链接等内容,也应该使用过滤规则将其去除。填写后,如图(图25),

  

  (本图来源于网络,如有侵权请联系删除!)

  (本图来源于网络,如有侵权请联系删除!)

  图25-文章的内容匹配规则

  至此,“新建采集节点:第二步设置内容字段获取规则”,设置完成。看一下整个配置页面,如图(图26),

  

  (本图来源于网络,如有侵权请联系删除!)

  图26-设置后新添加的采集节点: 第二步设置内容字段获取规则

  检查无误后,点击“保存配置并预览”。如果之前的设置正确,点击后会进入“新建采集节点:测试内容字段设置”页面,看到对应的文章内容。如图(图27)和(图28)@>,

  

  (本图来源于网络,如有侵权请联系删除!)

  图27-新建采集节点:测试内容字段设置

  

  (本图来源于网络,如有侵权请联系删除!)

  图28-新建采集节点:测试内容字段设置

  其中,图中圈出的地方代表分页符。

  确认无误后,点击“只保存”,系统会提示“保存配置成功”,返回“采集节点管理”界面;如果单击“保存并启动采集”,您将进入“采集 指定节点”界面。否则请点击“返回上一步修改”。

  第二部分的介绍到此结束。现在进入第三部分。. .

  上一篇:dedecms织梦采集函数教程-常用文章带分页采集(三)

  下一篇:德德cms织梦采集函数教程-通用文章(一)

  免责声明:本站所有文章及图片均来自用户分享和网络采集。文章及图片版权归原作者所有。仅供学习和参考。请不要将它们用于商业目的。如果您的权益受到损害,请联系网站客服。

  Eyoucms,简单易用的企业网站管理系统,点击了解更多

  

  有问题可以加入织梦技术QQ群一起交流学习

  本站VIP会员请加入dede58 VIP②群 PS:加入时请备注用户名或昵称

  普通注册会员或访客请加入dede58技术交流②群

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线