文章自动采集自动发布(选项卡下需要设置文章来源的文章列表网址及具体文章的匹配规则 )

优采云 发布时间: 2022-02-02 13:01

  文章自动采集自动发布(选项卡下需要设置文章来源的文章列表网址及具体文章的匹配规则

)

  在这个选项卡下,我们需要设置文章源的文章列表URL和具体文章的匹配规则

  我们以采集“新浪网讯”为例,文章列表URL为

  因此,您可以在手动指定的文章列表URL中输入该URL,如下图:

  

  之后,您需要为 文章list URLs 下的特定 文章 URLs 设置匹配规则

  文章网址匹配规则

  文章URL匹配规则的设置非常简单,不需要复杂的设置,提供了两种匹配方式,可以使用URL通配符或者CSS选择器进行匹配。通常,使用 URL 通配符进行匹配更简单,但有时使用 CSS 进行匹配。选择器更精确。

  1.使用 URL 通配符匹配

  通过点击列表URL上的文章,我们可以发现每个文章的URL都有如下结构

  因此,您可以将 URL 中发生变化的数字或字母替换为通配符 (*),例如:

  (*)/(*).shtml

  

  2.使用 CSS 选择器进行匹配

  使用 CSS 选择器进行匹配,我们只需要设置 文章 URL 的 CSS 选择器,通过查看列表 URL 的源码就可以轻松设置,找到 文章 的代码列表 URL 下的超链接,如下:

  

  可以看到,文章的超链接A标签在class为“contList”的标签里面,所以文章 URL的CSS选择器只需要设置为.contList a即可,如下图:

  

  不知道 CSS 选择器是什么,一分钟学会如何设置 CSS 选择器

  设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮。如果设置正确,会列出列表URL下所有文章的名称和对应的网页地址,如下图:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线