自动文章采集(五、文章网址匹配规则文章的设置和设置)
优采云 发布时间: 2021-09-29 21:21自动文章采集(五、文章网址匹配规则文章的设置和设置)
五、文章URL匹配规则
文章URL匹配规则的设置非常简单。不需要复杂的设置。提供了两种匹配模式。您可以使用URL通配符匹配或CSS选择器进行匹配。通常,使用URL通配符匹配相对简单
1.使用URL通配符匹配
点击列表网站上的文章,我们可以发现每个文章的URL结构如下
因此,将URL中更改的数字或字母替换为通配符(*),例如:(*)/(*)。Shtml
2.使用CSS选择器进行匹配
使用CSS选择器进行匹配,我们只需要设置文章网站的CSS选择器(我们不知道CSS选择器是什么,并且在一分钟内学习如何设置CSS选择器)。我们可以通过查看列表网站的源代码轻松设置,并在列表网站下找到特定的文章超链接的代码,如下所示:
您可以看到文章标记的超链接a位于类为“contlist”的标记内,因此文章网站的CSS选择器只需设置为。续表a,如下所示:
设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,列表网址下的所有文章名称和相应的网页地址都会被列出,如下图:
六、文章捕获设置
在此选项卡中,我们需要设置文章标题和文章内容的匹配规则。设置它们有两种方法。建议使用CSS选择器,它更简单、更准确。(我不知道CSS选择器是什么。我将在一分钟内学习如何设置CSS选择器)
我们只需设置文章标题CSS选择器和文章内容CSS选择器,即可准确捕获文章标题和文章内容
在文章源设置中,我们以采集“新浪互联网新闻”为例,在这里进行说明。您可以通过查看列表网站下a文章的源代码轻松设置。例如,我们可以查看特定文章的源代码,如下所示:
可以看到文章标题位于ID为“articletTitle”的标签内,因此文章标题CSS选择器只需设置为#articletTitle即可
同样,查找文章内容的相关代码:
您可以看到文章内容位于ID为“artist”的标记内,因此文章内容CSS选择器只需设置为#artist,如下所示:
设置后,如果不知道设置是否正确,可以单击测试按钮并输入测试地址。如果设置正确,将显示文章标题和文章内容,以便于检查设置
七、抓取文章分页内容
如果文章的内容太长,多个页面也可以捕获所有内容。此时,您需要设置文章页面链接CSS选择器,通过查看特定的文章网站源代码来查找页面链接。例如文章页面链接的代码如下:
您可以看到分页链接a标签位于类为“page link”的标签内
因此,可以将文章页面链接CSS选择器设置为。页面链接a,如下图所示:
如果选中,当发布也被分页时,发布文章也将被分页。不要检查WordPress主题是否不支持标签
八、文章内容过滤功能
中发布。切换到HTML显示,找到内容的HTML代码,分别设置两个关键词,过滤掉内容
如果需要过滤多个内容,可以添加多组设置
九、HTML标签过滤功能
HTML标记过滤功能,可过滤出采集文章中的超链接(如标记)
以上是如何使用WordPress automatic采集插件的详细信息。有关更多详细信息,请注意技术问候和其他相关信息文章