CSS选择器的五种方法,你知道几个?
优采云 发布时间: 2021-03-17 12:02CSS选择器的五种方法,你知道几个?
五、 文章 URL匹配规则
文章 URL匹配规则的设置非常简单,不需要复杂的设置,并且提供了两种匹配模式。您可以使用URL通配符匹配或CSS选择器进行匹配。通常,URL通配符匹配相对简单。
1.使用URL通配符匹配
通过在列表URL上单击文章,我们可以发现每个文章的URL具有以下结构
因此,用通配符(*)替换URL中更改的数字或字母,例如:(*)/(**。shtml)
2.使用CSS选择器进行匹配
使用CSS选择器进行匹配,我们只需设置文章 URL的CSS选择器即可(不知道什么是CSS选择器,请在一分钟内学习如何设置CSS选择器)。列表URL您可以轻松地对其进行设置,并在列表URL下找到特定文章超链接的代码,如下所示:
如您所见,超链接文章的标签位于类为“ contList”的标签内,因此文章 URL的CSS选择器只需设置为.contList a,如下所示:
设置完成后,如果您不确定设置是否正确,则可以单击上图中的测试按钮。如果设置正确,将列出列表URL下的所有文章名称和相应的网址,如下所示:
六、 文章抓取设置
在此选项卡下,我们需要设置文章标题和文章内容的匹配规则,并提供两种设置方式。建议使用CSS选择器方法,该方法更简单,更准确。 (我不知道什么是CSS选择器,但要学习如何在一分钟内设置CSS选择器)
我们只需要设置文章标题CSS选择器和文章内容CSS选择器,即可准确捕获文章标题和文章内容。
在文章源设置中,我们以采集《新浪网新闻》为例,此处以示例为例进行说明,您可以通过查看某文章文章的源代码轻松地对其进行设置。清单网址。例如,我们检查特定文章的源代码,如下所示:
如您所见,文章标题位于ID为“ artibodyTitle”的标记内,因此文章标题CSS选择器只需设置为#artibodyTitle;
类似地,找到文章内容的相关代码:
如您所见,文章的内容位于ID为“ artibody”的标记内,因此文章内容的CSS选择器只需设置为#artibody;如下图所示:
设置完成后,如果您不确定设置是否正确,则可以点击测试按钮,然后输入测试地址。如果设置正确,将显示文章标题和文章内容,便于检查设置
七、抓取文章页面内容
如果文章的内容太长,则有多个页面也可以捕获所有内容,那么您需要设置文章页面链接CSS选择器,并通过查看来找到页面链接的位置特定的文章 URL源代码,例如,文章分页链接的代码如下:
如您所见,分页链接A标签位于类为“页面链接”的标签内
因此,文章页面链接CSS选择器设置为.page-link a,如下所示:
如果在发布时选中“分页”,则发布文章也将被分页。如果您的WordPress主题不支持标签,请不要对其进行检查。
八、 文章内容过滤功能
文章内容过滤功能可以过滤掉正文中不想要的内容(例如广告代码,版权信息等),您可以设置两个关键词,删除两个关键词之间的内容,关键词 2可以为空,表示关键词 1之后的所有内容都将被删除。
如下所示,在通过测试抓取文章后,我们发现文章收录不想要的内容,切换到HTML显示,找到内容的HTML代码,分别设置两个关键词来过滤掉内容。
如果需要过滤出多个内容,则可以添加多组设置。
九、 HTML标签过滤功能
HTML标签过滤功能可以过滤出采集 文章中的超链接(例如标签)。
以上是有关如何使用wordpress auto 采集插件的详细内容。有关更多信息,请注意世界上其他相关软件文章!