一个采集器采集规则怎么写呢?小编来教你如何解决
优采云 发布时间: 2021-08-22 02:16一个采集器采集规则怎么写呢?小编来教你如何解决
*敏*感*词*信息网站发布文章时,如果一一文章在线发布,不仅浪费时间,而且效率不高。这时候为了提高更新网站的效率,出现了优采云采集器,但是优采云采集怎么写规则呢?下面我来详细介绍一下。
优采云采集Rules 写作介绍
第一步:新建文章采集节点
登录后台,点击采集>>采集node管理>>添加新节点>>选择normal文章>>OK
第2步:填写采集list规则
1.节点名称:随便你(注意一定要能区分,因为节点太多的话,可能会把自己搞砸)
2.目标页面编码:看目标页面的编码
3.匹配URL:到采集目标列表页面查看其列表规则!比如很多网站列表的第一页和其他内页有很大的不同,所以我一般不会采集定位到列表的第一页!
最好从第二页开始(虽然可以找到第一页,但是很多网站根本没有第一页,所以这里就不讲怎么找第一页了)
4.区末尾的HTML:在采集目标列表页面打开源码!找到文章标题附近需要采集的部分,这是本页唯一的,其他需要采集的页面也是唯一的html标签!
完成,点击保存信息进入下一步!如果规则写得正确,那么就会有一个基于内容的URL获取规则测试。
再次按下一步!回车填写采集content规则
第 3 步:采集内容规则
1.文章Title:在文章Title前后找两个标签来标识标题!
2.文章Content:在文章content前后找两个标签来识别内容!我的采集网站文章内容前后唯一的标签是
...