一个采集器采集规则怎么写呢?小编来教你如何解决

优采云 发布时间: 2021-08-22 02:16

  一个采集器采集规则怎么写呢?小编来教你如何解决

  *敏*感*词*信息网站发布文章时,如果一一文章在线发布,不仅浪费时间,而且效率不高。这时候为了提高更新网站的效率,出现了优采云采集器,但是优采云采集怎么写规则呢?下面我来详细介绍一下。

  优采云采集Rules 写作介绍

  第一步:新建文章采集节点

  登录后台,点击采集>>采集node管理>>添加新节点>>选择normal文章>>OK

  第2步:填写采集list规则

  1.节点名称:随便你(注意一定要能区分,因为节点太多的话,可能会把自己搞砸)

  2.目标页面编码:看目标页面的编码

  3.匹配URL:到采集目标列表页面查看其列表规则!比如很多网站列表的第一页和其他内页有很大的不同,所以我一般不会采集定位到列表的第一页!

  最好从第二页开始(虽然可以找到第一页,但是很多网站根本没有第一页,所以这里就不讲怎么找第一页了)

  4.区末尾的HTML:在采集目标列表页面打开源码!找到文章标题附近需要采集的部分,这是本页唯一的,其他需要采集的页面也是唯一的html标签!

  完成,点击保存信息进入下一步!如果规则写得正确,那么就会有一个基于内容的URL获取规则测试。

  再次按下一步!回车填写采集content规则

  第 3 步:采集内容规则

  1.文章Title:在文章Title前后找两个标签来标识标题!

  2.文章Content:在文章content前后找两个标签来识别内容!我的采集网站文章内容前后唯一的标签是

  ...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线