不用采集规则就可以采集(一个采集器采集规则怎么写呢?小编来教你如何解决)
优采云 发布时间: 2021-11-22 17:05不用采集规则就可以采集(一个采集器采集规则怎么写呢?小编来教你如何解决)
当发布*敏*感*词*信息网站文章时,如果将文章一一发布在网上,不仅浪费时间,而且效率低下。这时候为了提高更新网站的效率,优采云采集器,但是优采云采集的规则怎么写呢?接下来,让我详细介绍一下。
优采云采集规则编写介绍
第一步:新建一个文章采集节点
登录后台,点击采集>>采集节点管理>>新增节点>>选择正常文章>>确定
第二步:填写采集列表规则
1.节点名:随便你(注意一定要能区分出来,因为节点太多的话可能会搞砸自己)
2.目标页面编码:查看目标页面的编码
3.匹配URL:到采集目标列表页面查看其列表规则!比如很多网站列表的第一页就和其他的内页有很大的不同,所以我一般不会把采集定位到列表的第一页!
最好从第二页开始(虽然可以找到第一页,但是很多网站根本没有第一页,所以这里就不讲怎么找第一页了)
4. 区末HTML:在采集目标列表页面打开源码!在 文章 的标题附近找到一个将成为 采集 的部分。这个页面是唯一的,其他页面是采集也是唯一的html标签!
写完,点击保存信息进入下一步!如果规则写对了,那么就会有一个基于内容的URL获取规则测试
再次点击下一步!回车填写采集的内容规则
第三步:采集内容规则
1.文章 标题:在文章标题前后找两个标签来标识标题!
2.文章Content:在文章的内容前后找两个标签来识别内容!我的采集网站文章的内容前后唯一的标签是
…