实时文章采集工具的工作流程是什么?如何调整?

优采云 发布时间: 2021-05-13 03:02

  实时文章采集工具的工作流程是什么?如何调整?

  实时文章采集工具我自己开发的采集工具,用了这么久,速度并不好,毕竟是一个对于性能要求较高的工具,知道自己哪里做的不好,总结起来,还是自己的代码不规范。这款工具的工作流程是,首先我添加了大量的配置,比如每日新增文章、页面速率、标题字数、标签、页面访问频率、访问链接密度、hash值等等,然后运行起来,直到报一些日志为止。

  有时候一天下来,走了10个页面,就出现一个报错,我就不得不找找错在哪里,然后就再给添加配置。很麻烦。接下来详细聊一下我总结起来的问题,尽量避免踩坑。页面速率的问题我的做法是一定要比如说过去24小时中一段时间内的文章在页面里的比例,这个的话,可以自己做调整。但是,理论上来说,页面速率应该是越高越好,如果页面速率一般,那么访问速率就很慢了,这对爬虫的运行速度有很大的影响。

  另外还有一些页面时间段的报错,比如在晚上7:00-9:00,一般来说,页面速率设置在2万以下的速率更好,这样有利于爬虫的运行速度。还有页面的访问次数限制,这个应该是要根据自己需要爬取的页面页数来确定。不过确定页面访问次数,一定要先要确定一下访问的频率,如果是1万/页,那么爬取100页的时候你在1分钟内爬取了100次,说明你的页面访问频率有问题,因为一个页面几秒钟内很有可能就爬取100次了。

  那我的采集速率怎么调整呢?首先不要太长,如果报错,可以直接进行修改,如果页面太长,也可以适当降低速率,这个在代码上来说比较复杂,我也懒得写。我的做法是,页面采集时间过长的,调整速率,页面采集频率太高的,一律按10%左右。完美解决。页面访问频率的问题我直接采用访问的频率,也不会去参考历史的频率情况,如果爬取内容太多,访问频率需要参考下日志时间和采集时间,访问时间长且报错多,那我只能改设置,或者按采集速率调整。

  关于如何发现采集速率异常的,我们在实际爬取的时候,很难发现报错的速率情况,如果网站爬取速率很慢的话,会去联系爬虫的服务器,问他们报错的具体情况,当然,只有他们知道,这时候,我们应该借助于日志分析,基本报错的问题,日志上都会有,所以,我们只要看哪个页面掉下来时速率低,应该判断下那个页面是否掉下来发现采集速率异常,可以从几个地方去找,比如,单页爬取是,仔细看看,一般都会有,比如用户访问和频率低的时候,尤其是频率低的时候,而频率高的时候,会忽略上一篇文章,对于频率低的页面,比如新浪博客的,爬取新浪博客,还会在高频率的第一页右侧最下面找到日志区域里,找找是不是有报错,有的话,就可。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线