关键字文章采集器(一个采集器采集规则怎么写呢?小编来教你如何解决)
优采云 发布时间: 2021-09-05 15:21关键字文章采集器(一个采集器采集规则怎么写呢?小编来教你如何解决)
*敏*感*词*信息网站发布文章时,如果一一文章在线发布,不仅浪费时间,而且效率不高。这时候为了提高更新网站的效率,出现了优采云采集器,但是优采云采集怎么写规则呢?下面我来详细介绍一下。
优采云采集Rules 写作介绍
第一步:新建文章采集节点
登录后台,点击采集>>采集Node Management>>添加新节点>>选择Normal文章>>OK
第2步:填写采集list规则
1.Node name: 随便(注意一定要能区分出来,因为节点太多可能会搞砸自己)
2.目标页面编码:看目标页面的编码
3.匹配URL:到采集目标列表页面查看其列表规则!比如很多网站列表的第一页和其他内页有很大的不同,所以我一般不会采集定位到列表的第一页!
最好从第二页开始(虽然可以找到第一页,但是很多网站根本没有第一页,所以这里就不讲怎么找第一页了)
4.区末尾的HTML:在采集目标列表页面打开源码!在采集的文章标题附近找到这个页面上唯一的一个部分,其他需要采集的页面也是唯一的html标签!
完成,点击保存信息进入下一步!如果规则写得正确,那么就会有一个基于内容的URL获取规则测试。
再次按下一步!回车填写采集content规则
第 3 步:采集内容规则
1.文章Title:在文章Title前后找两个标签来标识标题!
2.文章Content:在文章content前后找两个标签来识别内容!我的采集网站文章内容前后唯一的标签是
...