文章采集规则(如何获取文章标题、文章作者、来源获取规则？（二）)

优采云发布时间: 2021-09-06 23:09

　　前言：本文是《常见的文章采集带有分页的方法》的第二部分。在上一节的基础上，本节将在第二步：“设置字段获取规则”中添加采集节点进行详细介绍。为与上一篇保持一致，本文将继续沿用之前的章节标记。

　　从第一部分继续。

　　2.1 添加采集节点：第二步设置内容字段获取规则

　　点击“保存信息，进入下一步设置”后，可以进入“添加采集节点：第二步设置内容字段获取规则”页面，如图（图14），<//p

pimg src='http://www.wangsir.cn/uploads/allimg/140504/2229463962-0.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集（二）'//p

p图14-设置内容字段获取规则/p

p系统会自动分配一个“预览网址”，通常是文章列表页第一个文章的网址。不过由于第一篇文章没有涉及分页部分，我手动改成了第二篇文章网址：""，修改后如图（图15）,/p

pimg src='http://www.wangsir.cn/uploads/allimg/140504/22294AZ9-1.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集（二）'//p

p图15-更改后的预览地址/p

p接下来，我们来设置分页部分的匹配规则。具体步骤如下：/p

p打开文章content页面，在网页上右击，在弹出的对话框中点击“查看源文件”。在源码中，找到分页代码的开头和结尾，如图（图16）,/p

pimg src='http://www.wangsir.cn/uploads/allimg/140504/22294C037-2.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集（二）'//p

p图 16-分页代码/p

p经过观察，可以看出分页码位于“/p

p“和”/p

p”。因此，在“内容分页导航所在区域匹配规则”中，应填写“/p

p[内容]/p

p”。分页码的样式有3个选项，这里要选择第一个“List of all paging”，填好后如图（图17）,/p

pimg src='http://www.wangsir.cn/uploads/allimg/140504/2229461U9-3.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集（二）'//p

p图17-设置后的网页内容获取规则/p

p对于“固定采集项目”中的“内容摘要、a href='https://www.ucaiyun.com/caiji/public_dict/' target='_blank'关键词/a和缩略图”三部分，系统会使用常规规则进行自动匹配，这里只需要配置过滤内容即可。下面主要介绍如何获取“文章title、文章author、文章source、发表时间、文章content”的采集规则。过滤规则只是简单涉及。/p

p2.1.1 获取文章title 的采集rules/p

p首先打开“预览网址”页面，右键，选择“查看源代码”，找到文章title“OpenFlow网络是空谈吗？”，如图（图18）,/p

pimg src='http://www.wangsir.cn/uploads/allimg/140504/2229464D6-4.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集（二）'//p

p图18-源代码中的文章Title/p

p这里的文章title在“”之间，所以这里应该填“[Content]”作为文章title的匹配规则。如果文章标题中有相关链接，可以通过过滤规则进行处理，这里不需要设置。填写后，如图（图19）,/p

pimg src='http://www.wangsir.cn/uploads/allimg/140504/22294C509-5.png' alt='Dedecms采集功能的使用方法网站 --- 含有分页的普通文章的采集（二）'//p

p图19-文章title的采集规则/p

p2.1.2 获取文章author 的采集rules/p

p搜索源码，对比原文的标题部分，发现本文不涉及文章作者，此处无需填写，留空即可。/p

p>

0

2021-09-06

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集规则(如何获取文章标题、文章作者、来源获取规则？（二）)

0 个评论

发起人

AI时代内容工厂

文章采集规则(如何获取文章标题、文章作者、来源获取规则？（二）)

0 个评论

发起人

相关问题