【知识点】文章网址的匹配规则(一)——文章列表

优采云 发布时间: 2021-08-25 20:50

  【知识点】文章网址的匹配规则(一)——文章列表

  以采集“新浪网”为例,文章列表网址为/internet_worldlist/index.shtml,所以在手动指定的文章列表网址中输入网址,如下图:

  之后需要在文章List URL下设置特定文章 URL的匹配规则

  五、文章URL 匹配规则

  文章网址匹配规则的设置非常简单,不需要复杂的设置,提供两种匹配方式。您可以使用 URL 通配符匹配或 CSS 选择器进行匹配。一般来说,URL通配符匹配比较简单。

  1.使用 URL 通配符匹配

  通过点击列表URL/internet_worldlist/index.shtml上的文章,我们可以发现每个文章 URL的结构如下

  /i/2013-06-27/.shtml

  所以用通配符(*)替换URL中改变的数字或字母,例如:/i/(*)/(*).shtml

  2.使用CSS选择器进行匹配

  使用CSS选择器进行匹配,我们只需要设置文章URL的CSS选择器(不知道什么是CSS选择器,*Zhong学习如何设置CSS选择器),通过查看列表URL/internet_worldlist / index.shtml的源码可以很方便的设置。在列表网址下找到具体文章超链接的代码,如下图:

  可以看到,文章的超链接a标签在类为“contList”的标签内,所以文章 URL的CSS选择器只需要设置为.contLista即可,如下图:

  设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮。如果设置正确,将列出列表URL下的所有文章名称和对应的网址,如下图:

  六、文章Grab 设置

  在这个标签下,我们需要设置文章title 和文章content 的匹配规则。提供了两种设置方法。推荐使用CSS选择器方法,比较好用,*. (不知道什么是CSS选择器,*Zhong学习如何设置CSS选择器)

  我们只需要设置文章title CSS选择器和文章content CSS选择器就可以准确捕获文章title和文章内容。

  在文章source设置中,我们以采集“新浪网”为例。这里我们就用这个例子来说明,通过查看列表URL/internet_worldlist/index.shtml,一篇文章的来源文章代码可以轻松设置。比如我们可以查看特定文章/n/i/2013-06-10/.shtml的源码如下:

  如您所见,文章title 位于 id 为“artibodyTitle”的标签内,因此 文章title CSS 选择器只需设置为 #artibodyTitle;

  同理,找到文章content的相关代码:

  如你所见,文章content在id为“artibody”的标签内,所以文章内容CSS选择器只需要设置为#artibody;如下图:

  设置完成后,如果不知道设置是否正确,可以点击测试按钮,输入测试地址。如果设置正确,会显示文章title和文章内容,方便查看设置

  七、Grab文章page 内容

  如果文章的内容太长,有多个页面也可以抓取所有内容。这时候就需要设置文章分页链接的CSS选择器,通过查看具体的文章URL源代码来找到页面链接的位置,比如一个文章page链接的代码如下如下:

  如您所见,分页链接A标签位于类为“page-link”的标签内

  所以,文章page链接CSS选择器可以设置为.page-linka,如下图:

  如果你在发布时勾选 Paging,帖子文章 也会被分页。如果您的 WordPress 主题不支持标签,请不要勾选。

  八、文章内容过滤功能

  文章内容过滤功能可以过滤掉正文中不想发布的内容(如广告代码、版权信息等)。可以设置两个关键词,删除两个关键词之间的内容。 关键词2 可以为空,表示关键词1 之后的内容全部删除。

  如下图,我们通过测试抓取文章后,发现文章中有我们不想发布的内容,切换到HTML显示,找到该内容的HTML代码,设置两个关键词分别过滤掉内容。

  如上图,如果我们要过滤掉上面的

  和

  在两者之间,添加以下设置。

  如果需要过滤掉多个内容,可以添加多组设置。

  九、HTML 标签过滤功能

  HTML标签过滤功能可以过滤掉采集文章中的超链接(一个标签),

  阅读(2137)(0)顶(0)分享和打印)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线