插入关键字 文章采集器(新浪互联网新闻为例,文章列表网址匹配规则的设置)

优采云 发布时间: 2022-03-01 15:00

  插入关键字 文章采集器(新浪互联网新闻为例,文章列表网址匹配规则的设置)

  我们以采集“新浪网讯”为例,文章列表网址就是在手动指定的文章列表网址中输入网址,如下图:

  p>

  

  之后需要设置文章list URLs下具体文章URLs的匹配规则

  五、文章网址匹配规则

  文章URL匹配规则的设置非常简单,不需要复杂的设置,提供了两种匹配方式,可以使用URL通配符或者CSS选择器进行匹配。通常,使用 URL 通配符进行匹配更简单。

  1. 使用 URL 通配符匹配

  通过点击列表URL上的文章,我们可以发现每个文章的URL都有如下结构

  所以用通配符(*)替换URL中改变的数字或字母,如:(*)/(*).shtml

  

  2. 使用 CSS 选择器进行匹配

  使用 CSS 选择器进行匹配,我们只需要设置 文章 URL 的 CSS 选择器(不知道 CSS 选择器是什么,一分钟了解如何设置 CSS 选择器),通过查看list URL的源码可以很方便的设置,在list URL下找到具体文章的超链接的代码,如下图:

  

  可以看到文章的超链接a标签在class为“contList”的标签里面,所以文章 URL的CSS选择器只需要设置为.contList a即可,如下图显示:

  

  设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮。如果设置正确,会列出列表URL下的所有文章名称和对应的网页地址,如下图:

  

  六、文章爬取设置

  在这个选项卡下,我们需要设置文章标题和文章内容的匹配规则。有两种设置方法。推荐使用 CSS 选择器方式,比较好用。准确的。 (不知道CSS选择器是什么,一分钟了解如何设置CSS选择器)

  我们只需要设置文章标题CSS选择器和文章内容CSS选择器就可以准确抓取文章标题和文章内容。

  在文章的来源设置中,我们以采集“新浪网讯”为例,这里举例说明,通过查看下一个文章的来源list URL 代码可以很方便的设置,比如查看具体文章的源码,如下:

  

  如你所见,文章title在id为“artibodyTitle”的标签内,所以文章title CSS选择器只需设置为#artibodyTitle;

  同样,找到文章内容的相关代码:

  

  如你所见,文章内容在id为“artibody”的标签内,所以文章内容CSS选择器只需要设置为#artibody即可;如下:

  

  设置完成后,如果不知道设置是否正确,可以点击测试按钮,输入测试地址。如果设置正确,会显示文章标题和文章内容,方便查看设置

  

  七、获取文章分页内容

  如果文章的内容过长,多个页面也可以抓取全部内容。在这种情况下,您需要设置 文章 页面链接的 CSS 选择器。通过查看具体的文章网址源码,在哪里可以找到分页链接,例如一个文章分页链接代码如下:

  

  可以看到分页链接A标签在class为“page-link”的标签内

  因此,文章页面链接CSS选择器可以设置为.page-link a,像这样:

  

  如果选中此选项,则帖子文章也将分页。如果您的 WordPress 主题不支持标签,请不要勾选。

  八、文章内容过滤功能

  文章内容过滤功能,可以过滤掉文本中不需要的内容(如广告代码、版权信息等),可以设置两个关键词,删除两个关键词@ >、关键词2可以为空,表示删除关键词1之后的所有内容。

  如下图,我们通过测试爬取文章后发现文章中有​​我们不想发布的内容,切换到HTML显示,找到该内容的HTML代码,并设置两个关键词过滤掉内容。

  

  如上图,如果我们想过滤掉上面的内容

  和

  在内容之间,添加如下设置

  

  如果需要过滤掉多个内容,可以添加多组设置。

  关键词0@>HTML标签过滤功能

  HTML标签过滤功能,可以过滤掉采集文章中的超链接(a标签),

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线