网站内容采集器( 教程总目录:优采云采集器使用教程:1.采集器使用)

优采云 发布时间: 2021-08-28 23:29

  网站内容采集器(

教程总目录:优采云采集器使用教程:1.采集器使用)

  优采云采集器timing采集update网站content(必须用于长期网站)

  教程总目录:优采云采集器Using tutorials

  在之前的教程中,我们基本可以完成网站内容的采集工作。但是如果我们想要网站跑很久,采集我们肯定做不到一次。

  优采云自带定时任务功能,我们可以利用该功能实现采集任务的定时运行。

  另外,我们的采集地址也需要做一些改动,以提高采集的效率。

  1.采集地址设置

  在之前的教程中,我们的目的是将对方整个站点的内容发送到采集,所以采集列表中的URL比较多。如果以后继续采集新内容,就不能像这个NS那样扫描整个网站了。

  我们只需要监控第一页,然后定期检查第一页是否有新内容。如果有新内容优采云会自动采集下载数据。如果没有,扫描后会自动停止。

  以静安的文章为例

  这是他文章列表的第一页。静安更新新内容的时候,肯定会在第一页显示在这里。我们只是将第一页的地址填入采集列表中。我不会在这里重复。教程开头写了几个文章。

  还有一点需要注意,因为他在我们定期运行的时候需要检查是否是采集过的文章,所以我们不想清除优采云的采集数据。否则优采云检测发现文章已经不是采集了,都被认为是新的文章采集

  2.定时任务设置

  本教程仅创建一个任务,如果您长期运行网站。你的网站的每一节都可能来自文章的不同来源的采集,甚至一个节也只有几个网站文章。任务太多了

  我们可以批量添加定时任务

  点击安排任务

  我们先创建一个定时任务组

  然后在组中添加定时任务,这样更容易管理

  那么里面的间隔时间是根据采集的网站更新频率来设置的,如果更新的越快,间隔时间越短。如果更新很慢,请花更长的时间。比如静安网站可能几天几个月都不更新,把间隔时间设置成每天就可以了。

  限时

  这个也应该理解,就是定时任务在什么时间段生效,默认是早上6点到23:00。我一般都给他改成一整天

  拓展知识

  因为采集 任务运行时间长,我们最好把废话放回服务器上运行。如果家里有比较省电的机器,也可以用来挂采集任务。

  采集 任务多的话还是要消耗CPU的。一般建议挂在家里。家庭带宽外网IP频繁变化对采集有利,硬件配置基本高于购买的服务器。不用担心优采云运行时卡住的情况。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线