站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)

优采云 发布时间: 2021-10-28 04:19

  站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)

  方向采集教程

  序幕

  采集 规则编写很难上手。只要你尝试上手,以后用起来会很方便。以后使用其他采集软件也会受益匪浅。

  域名构建系统定位采集工具在后台内容管理网站

  操作路径:内容管理>采集管理>规则采集

  设置 采集 列表 URL

  列表URL就是你要采集的网站的列列表地址

  如果只是采集列表页面的第一页,直接输入列表的URL即可。采集第一页内容的好处是不需要采集旧新闻,有新新闻。更新也可以及时到达采集。如果需要采集该列的所有内容,还可以设置通配符匹配所有列表URL规则。

  匹配URL规则的方法也很简单。您只需要检查列表页面的差异并添加通配符即可。以人民日报在线科技频道为例:

  第一页的网址是:

  第二页的网址是:

  第三页的网址是:

  通过观察列表URL的变化,我们可以看到第一页是index1.shtml,第二页是index2.shtml,第三页是index3.shtml,并且改变的页码是Only,列表页的URL通配符是[起始页-结束页],如果你想让采集列目前有10页,那么列表URL规则是:[1 -10].html,可以看出区别嘛,在转换后的部分加通配符就好了,从起始页到结束页。

  设置文章 URL区

  上面我们已经设置了网站的列表URL到采集,但是打开这个URL页面的时候内容很多,程序无法知道文章是哪个文章的URL采集,所以我们在这里设置一个区域规则来告诉它。

  如图,红框就是我们要采集文章

  

  这个规则怎么写,你写一个规则告诉它文章 URL从哪里开始到哪里结束,最后的规则是

  开头的代码 [内容] 结尾的代码

  比如我们打开上面人民网频道列表的第一页:

  打开后右键查看源码,通过查看源码找到我们想要的文章 URL的区域

  

  最后我们找到了一段前后唯一的代码来制定规则,就是

  [内容]

  1

  设置标题规则

  标题规则类似于文章 URL 区域规则。打开列表中任意一篇文章文章,查看源码,在页面上找到标题

  如文章 URL:,源码截图如下

  

  将标题前后的唯一代码制成规则,即

  [内容]--科技--人民网

  1

  设置身体规则

  或者在上面的页面找到文字所在的区域,在文字前后找一个唯一的代码来做规则

  如图所示

  

  最终规则可以写成

  [内容]

  1

  最后点击Test,如果测试成功点击Save采集

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线