文章采集规则(如何获取文章标题、文章作者、来源获取规则?(二))
优采云 发布时间: 2021-09-06 23:09文章采集规则(如何获取文章标题、文章作者、来源获取规则?(二))
前言:本文是《常见的文章采集带有分页的方法》的第二部分。在上一节的基础上,本节将在第二步:“设置字段获取规则”中添加采集节点进行详细介绍。为与上一篇保持一致,本文将继续沿用之前的章节标记。
从第一部分继续。
2.1 添加采集节点:第二步设置内容字段获取规则
点击“保存信息,进入下一步设置”后,可以进入“添加采集节点:第二步设置内容字段获取规则”页面,如图(图14),<//p
pimg src='http://www.wangsir.cn/uploads/allimg/140504/2229463962-0.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集(二)'//p
p图14-设置内容字段获取规则/p
p系统会自动分配一个“预览网址”,通常是文章列表页第一个文章的网址。不过由于第一篇文章没有涉及分页部分,我手动改成了第二篇文章网址:"",修改后如图(图15),/p
pimg src='http://www.wangsir.cn/uploads/allimg/140504/22294AZ9-1.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集(二)'//p
p图15-更改后的预览地址/p
p接下来,我们来设置分页部分的匹配规则。具体步骤如下:/p
p打开文章content页面,在网页上右击,在弹出的对话框中点击“查看源文件”。在源码中,找到分页代码的开头和结尾,如图(图16),/p
pimg src='http://www.wangsir.cn/uploads/allimg/140504/22294C037-2.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集(二)'//p
p图 16-分页代码/p
p经过观察,可以看出分页码位于“/p
p“和”/p
p”。因此,在“内容分页导航所在区域匹配规则”中,应填写“/p
p[内容]/p
p”。分页码的样式有3个选项,这里要选择第一个“List of all paging”,填好后如图(图17),/p
pimg src='http://www.wangsir.cn/uploads/allimg/140504/2229461U9-3.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集(二)'//p
p图17-设置后的网页内容获取规则/p
p对于“固定采集项目”中的“内容摘要、a href='https://www.ucaiyun.com/caiji/public_dict/' target='_blank'关键词/a和缩略图”三部分,系统会使用常规规则进行自动匹配,这里只需要配置过滤内容即可。下面主要介绍如何获取“文章title、文章author、文章source、发表时间、文章content”的采集规则。过滤规则只是简单涉及。/p
p2.1.1 获取文章title 的采集rules/p
p首先打开“预览网址”页面,右键,选择“查看源代码”,找到文章title“OpenFlow网络是空谈吗?”,如图(图18),/p
pimg src='http://www.wangsir.cn/uploads/allimg/140504/2229464D6-4.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集(二)'//p
p图18-源代码中的文章Title/p
p这里的文章title在“”之间,所以这里应该填“[Content]”作为文章title的匹配规则。如果文章标题中有相关链接,可以通过过滤规则进行处理,这里不需要设置。填写后,如图(图19),/p
pimg src='http://www.wangsir.cn/uploads/allimg/140504/22294C509-5.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集(二)'//p
p图19-文章title的采集规则/p
p2.1.2 获取文章author 的采集rules/p
p搜索源码,对比原文的标题部分,发现本文不涉及文章作者,此处无需填写,留空即可。/p
p>