自动文章采集软件(新浪互联网新闻为例，文章列表网址匹配规则的设置)

优采云发布时间: 2021-09-28 03:04

　　以采集>“新浪互联网新闻”为例,文章>列表URL为。因此，在手动指定的文章@>列表URL中输入URL，如下所示：

　　之后，您需要在文章@>列表URL下设置特定文章@>URL的匹配规则

　　五、文章@>URL匹配规则

　　文章@>URL匹配规则的设置非常简单。不需要复杂的设置。提供了两种匹配模式。您可以使用URL通配符匹配或CSS选择器进行匹配。通常，使用URL通配符匹配相对简单

　　1.使用URL通配符匹配

　　点击列表网站上的文章@>，我们可以发现每个文章@>的URL结构如下

　　因此，将URL中更改的数字或字母替换为通配符（*），例如：（*）/（*）。Shtml

　　2.使用CSS选择器进行匹配

　　使用CSS选择器进行匹配，我们只需要设置文章@>网站的CSS选择器（我们不知道CSS选择器是什么，并且在一分钟内学习如何设置CSS选择器）。我们可以通过查看列表网站的源代码轻松设置，并在列表网站下找到特定的文章@>超链接的代码，如下所示：

　　您可以看到文章@>标记的超链接a位于类为“contlist”的标记内，因此文章@>网站的CSS选择器只需设置为。续表a，如下所示：

　　设置完成后，如果不知道设置是否正确，可以点击上图中的测试按钮，如果设置正确，列表网址下的所有文章@>名称和相应的网页地址都会被列出，如下图：

　　六、文章@>捕获设置

　　在此选项卡中，我们需要设置文章@>标题和文章@>内容的匹配规则。设置它们有两种方法。建议使用CSS选择器，它更简单、更准确。（我不知道CSS选择器是什么。我将在一分钟内学习如何设置CSS选择器）

　　我们只需设置文章@>标题CSS选择器和文章@>内容CSS选择器，即可准确捕获文章@>标题和文章@>内容

　　在文章@>源设置中，我们以采集@>“新浪互联网新闻”为例，在这里进行说明。您可以通过查看列表网站下a文章@>的源代码轻松设置。例如，我们可以查看特定文章@>的源代码，如下所示：

　　可以看到文章@>标题位于ID为“articletTitle”的标签内，因此文章@>标题CSS选择器只需设置为#articletTitle即可

　　同样，查找文章@>内容的相关代码：

　　您可以看到文章@>内容位于ID为“artist”的标记内，因此文章@>内容CSS选择器只需设置为#artist，如下所示：

　　设置后，如果不知道设置是否正确，可以单击测试按钮并输入测试地址。如果设置正确，将显示文章@>标题和文章@>内容，以便于检查设置

　　七、抓取文章@>分页内容

　　如果文章@>的内容太长，多个页面也可以捕获所有内容。此时，您需要设置文章@>页面链接CSS选择器，通过查看特定的文章@>网站源代码来查找页面链接。例如文章@>页面链接的代码如下：

　　您可以看到分页链接a标签位于类为“page link”的标签内

　　因此，可以将文章@>页面链接CSS选择器设置为。页面链接a，如下图所示：

　　如果选中，当发布也被分页时，发布文章@>也将被分页。不要检查WordPress主题是否不支持标签

　　八、文章@>内容过滤功能

　　后，我们发现有一些内容我们不想在文章>中发布。切换到HTML显示，找到内容的HTML代码，分别设置两个关键词，过滤掉内容

　　如上所示，如果我们想过滤掉上面的

　　及

　　可以添加以下设置

　　如果需要过滤多个内容，可以添加多组设置

　　九、HTML标签过滤功能

　　HTML标签过滤功能，可过滤出采集@>文章@>

0

2021-09-28

自动文章采集软件

0 个评论

要回复文章请先登录或注册