文章自动采集自动发布(选项卡下需要设置文章来源的文章列表网址及具体文章的匹配规则 )
优采云 发布时间: 2022-02-02 13:01文章自动采集自动发布(选项卡下需要设置文章来源的文章列表网址及具体文章的匹配规则
)
在这个选项卡下,我们需要设置文章源的文章列表URL和具体文章的匹配规则
我们以采集“新浪网讯”为例,文章列表URL为
因此,您可以在手动指定的文章列表URL中输入该URL,如下图:
之后,您需要为 文章list URLs 下的特定 文章 URLs 设置匹配规则
文章网址匹配规则
文章URL匹配规则的设置非常简单,不需要复杂的设置,提供了两种匹配方式,可以使用URL通配符或者CSS选择器进行匹配。通常,使用 URL 通配符进行匹配更简单,但有时使用 CSS 进行匹配。选择器更精确。
1.使用 URL 通配符匹配
通过点击列表URL上的文章,我们可以发现每个文章的URL都有如下结构
因此,您可以将 URL 中发生变化的数字或字母替换为通配符 (*),例如:
(*)/(*).shtml
2.使用 CSS 选择器进行匹配
使用 CSS 选择器进行匹配,我们只需要设置 文章 URL 的 CSS 选择器,通过查看列表 URL 的源码就可以轻松设置,找到 文章 的代码列表 URL 下的超链接,如下:
可以看到,文章的超链接A标签在class为“contList”的标签里面,所以文章 URL的CSS选择器只需要设置为.contList a即可,如下图:
不知道 CSS 选择器是什么,一分钟学会如何设置 CSS 选择器
设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮。如果设置正确,会列出列表URL下所有文章的名称和对应的网页地址,如下图: