站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)

优采云发布时间: 2021-10-28 04:19

　　方向采集教程

　　序幕

　　采集规则编写很难上手。只要你尝试上手，以后用起来会很方便。以后使用其他采集软件也会受益匪浅。

　　域名构建系统定位采集工具在后台内容管理网站

　　操作路径：内容管理>采集管理>规则采集

　　设置采集列表 URL

　　列表URL就是你要采集的网站的列列表地址

　　如果只是采集列表页面的第一页，直接输入列表的URL即可。采集第一页内容的好处是不需要采集旧新闻，有新新闻。更新也可以及时到达采集。如果需要采集该列的所有内容，还可以设置通配符匹配所有列表URL规则。

　　匹配URL规则的方法也很简单。您只需要检查列表页面的差异并添加通配符即可。以人民日报在线科技频道为例：

　　第一页的网址是：

　　第二页的网址是：

　　第三页的网址是：

　　通过观察列表URL的变化，我们可以看到第一页是index1.shtml，第二页是index2.shtml，第三页是index3.shtml，并且改变的页码是Only，列表页的URL通配符是[起始页-结束页]，如果你想让采集列目前有10页，那么列表URL规则是：[1 -10].html，可以看出区别嘛，在转换后的部分加通配符就好了，从起始页到结束页。

　　设置文章 URL区

　　上面我们已经设置了网站的列表URL到采集，但是打开这个URL页面的时候内容很多，程序无法知道文章是哪个文章的URL采集，所以我们在这里设置一个区域规则来告诉它。

　　如图，红框就是我们要采集文章

　　这个规则怎么写，你写一个规则告诉它文章 URL从哪里开始到哪里结束，最后的规则是

　　开头的代码 [内容] 结尾的代码

　　比如我们打开上面人民网频道列表的第一页：

　　打开后右键查看源码，通过查看源码找到我们想要的文章 URL的区域

　　最后我们找到了一段前后唯一的代码来制定规则，就是

　　[内容]

　　1

　　设置标题规则

　　标题规则类似于文章 URL 区域规则。打开列表中任意一篇文章文章，查看源码，在页面上找到标题

　　如文章 URL:，源码截图如下

　　将标题前后的唯一代码制成规则，即

　　[内容]--科技--人民网

　　1

　　设置身体规则

　　或者在上面的页面找到文字所在的区域，在文字前后找一个唯一的代码来做规则

　　如图所示

　　最终规则可以写成

　　[内容]

　　1

　　最后点击Test，如果测试成功点击Save采集

0

2021-10-28

站群文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)

0 个评论

发起人

AI时代内容工厂

站群文章采集器(定向采集教程前序采集规则(图)采集方法介绍)

0 个评论

发起人

相关问题