2016-12-28更新爬取速度比我预想要慢

优采云 发布时间: 2022-07-03 13:06

  2016-12-28更新爬取速度比我预想要慢

  文章定时自动采集2000个微信公众号文章和500个百家号文章,写一个爬虫程序,爬取相关数据,并汇总在一起。看看2000篇文章里,会有多少个公众号(而且还是1万篇),500篇文章又会爬取多少篇(而且还是500篇)。

  

  最主要看搜索页面是一次性从哪个平台下载的,如果多次下载多次提取,也会造成不准确问题。不放心就多下几个平台的。

  今天简单爬了一下2000个公众号,爬取率不是特别高。出来一个,我再试试其他网站。2016-12-28更新爬取速度比我预想的要慢,一般这种爬取活动都是提前3-4天有个提醒。今天试着爬了一下中原网,爬取率是挺理想的。@阡陌所在的地区是广东,地区优势明显。一些地方平台支持连续下载100天300篇数据,更全面。

  

  还有500篇数据爬取花了8小时。总之很重要的一点就是善于发现和利用搜索引擎提供的爬虫接口,分享一下搜索引擎接口,以及搜索结果:(想学习爬虫的可以看看我专栏的文章教程有爬虫基础的都会看看)but,,一般现在公众号中分享的结果有很多都是刷出来的粉丝,相当的不正确。为了爬取准确的数据,我试着再重新爬取2000个公众号的抓取结果,速度是不是快了很多。

  而且有些标题党的文章也很容易就爬取到。2016-12-23更新结果重新爬取了1000个公众号,取其中500个里面最精确的数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线