站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)
优采云 发布时间: 2021-10-28 04:19站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)
方向采集教程
序幕
采集 规则编写很难上手。只要你尝试上手,以后用起来会很方便。以后使用其他采集软件也会受益匪浅。
域名构建系统定位采集工具在后台内容管理网站
操作路径:内容管理>采集管理>规则采集
设置 采集 列表 URL
列表URL就是你要采集的网站的列列表地址
如果只是采集列表页面的第一页,直接输入列表的URL即可。采集第一页内容的好处是不需要采集旧新闻,有新新闻。更新也可以及时到达采集。如果需要采集该列的所有内容,还可以设置通配符匹配所有列表URL规则。
匹配URL规则的方法也很简单。您只需要检查列表页面的差异并添加通配符即可。以人民日报在线科技频道为例:
第一页的网址是:
第二页的网址是:
第三页的网址是:
通过观察列表URL的变化,我们可以看到第一页是index1.shtml,第二页是index2.shtml,第三页是index3.shtml,并且改变的页码是Only,列表页的URL通配符是[起始页-结束页],如果你想让采集列目前有10页,那么列表URL规则是:[1 -10].html,可以看出区别嘛,在转换后的部分加通配符就好了,从起始页到结束页。
设置文章 URL区
上面我们已经设置了网站的列表URL到采集,但是打开这个URL页面的时候内容很多,程序无法知道文章是哪个文章的URL采集,所以我们在这里设置一个区域规则来告诉它。
如图,红框就是我们要采集文章
这个规则怎么写,你写一个规则告诉它文章 URL从哪里开始到哪里结束,最后的规则是
开头的代码 [内容] 结尾的代码
比如我们打开上面人民网频道列表的第一页:
打开后右键查看源码,通过查看源码找到我们想要的文章 URL的区域
最后我们找到了一段前后唯一的代码来制定规则,就是
[内容]
1
设置标题规则
标题规则类似于文章 URL 区域规则。打开列表中任意一篇文章文章,查看源码,在页面上找到标题
如文章 URL:,源码截图如下
将标题前后的唯一代码制成规则,即
[内容]--科技--人民网
1
设置身体规则
或者在上面的页面找到文字所在的区域,在文字前后找一个唯一的代码来做规则
如图所示
最终规则可以写成
[内容]
1
最后点击Test,如果测试成功点击Save采集