自动文章采集软件(新浪互联网新闻为例,文章列表网址匹配规则的设置)

优采云 发布时间: 2021-09-28 03:04

  自动文章采集软件(新浪互联网新闻为例,文章列表网址匹配规则的设置)

  以采集>“新浪互联网新闻”为例,文章>列表URL为。因此,在手动指定的文章@>列表URL中输入URL,如下所示:

  

  之后,您需要在文章@>列表URL下设置特定文章@>URL的匹配规则

  五、文章@>URL匹配规则

  文章@>URL匹配规则的设置非常简单。不需要复杂的设置。提供了两种匹配模式。您可以使用URL通配符匹配或CSS选择器进行匹配。通常,使用URL通配符匹配相对简单

  1.使用URL通配符匹配

  点击列表网站上的文章@>,我们可以发现每个文章@>的URL结构如下

  因此,将URL中更改的数字或字母替换为通配符(*),例如:(*)/(*)。Shtml

  

  2.使用CSS选择器进行匹配

  使用CSS选择器进行匹配,我们只需要设置文章@>网站的CSS选择器(我们不知道CSS选择器是什么,并且在一分钟内学习如何设置CSS选择器)。我们可以通过查看列表网站的源代码轻松设置,并在列表网站下找到特定的文章@>超链接的代码,如下所示:

  

  您可以看到文章@>标记的超链接a位于类为“contlist”的标记内,因此文章@>网站的CSS选择器只需设置为。续表a,如下所示:

  

  设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,列表网址下的所有文章@>名称和相应的网页地址都会被列出,如下图:

  

  六、文章@>捕获设置

  在此选项卡中,我们需要设置文章@>标题和文章@>内容的匹配规则。设置它们有两种方法。建议使用CSS选择器,它更简单、更准确。(我不知道CSS选择器是什么。我将在一分钟内学习如何设置CSS选择器)

  我们只需设置文章@>标题CSS选择器和文章@>内容CSS选择器,即可准确捕获文章@>标题和文章@>内容

  在文章@>源设置中,我们以采集@>“新浪互联网新闻”为例,在这里进行说明。您可以通过查看列表网站下a文章@>的源代码轻松设置。例如,我们可以查看特定文章@>的源代码,如下所示:

  

  可以看到文章@>标题位于ID为“articletTitle”的标签内,因此文章@>标题CSS选择器只需设置为#articletTitle即可

  同样,查找文章@>内容的相关代码:

  

  您可以看到文章@>内容位于ID为“artist”的标记内,因此文章@>内容CSS选择器只需设置为#artist,如下所示:

  

  设置后,如果不知道设置是否正确,可以单击测试按钮并输入测试地址。如果设置正确,将显示文章@>标题和文章@>内容,以便于检查设置

  

  七、抓取文章@>分页内容

  如果文章@>的内容太长,多个页面也可以捕获所有内容。此时,您需要设置文章@>页面链接CSS选择器,通过查看特定的文章@>网站源代码来查找页面链接。例如文章@>页面链接的代码如下:

  

  您可以看到分页链接a标签位于类为“page link”的标签内

  因此,可以将文章@>页面链接CSS选择器设置为。页面链接a,如下图所示:

  

  如果选中,当发布也被分页时,发布文章@>也将被分页。不要检查WordPress主题是否不支持标签

  八、文章@>内容过滤功能

  后,我们发现有一些内容我们不想在文章>中发布。切换到HTML显示,找到内容的HTML代码,分别设置两个关键词,过滤掉内容

  

  如上所示,如果我们想过滤掉上面的

  及

  可以添加以下设置

  

  如果需要过滤多个内容,可以添加多组设置

  九、HTML标签过滤功能

  HTML标签过滤功能,可过滤出采集@>文章@>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线