2016-12-28更新爬取速度比我预想要慢
优采云 发布时间: 2022-07-03 13:062016-12-28更新爬取速度比我预想要慢
文章定时自动采集2000个微信公众号文章和500个百家号文章,写一个爬虫程序,爬取相关数据,并汇总在一起。看看2000篇文章里,会有多少个公众号(而且还是1万篇),500篇文章又会爬取多少篇(而且还是500篇)。
最主要看搜索页面是一次性从哪个平台下载的,如果多次下载多次提取,也会造成不准确问题。不放心就多下几个平台的。
今天简单爬了一下2000个公众号,爬取率不是特别高。出来一个,我再试试其他网站。2016-12-28更新爬取速度比我预想的要慢,一般这种爬取活动都是提前3-4天有个提醒。今天试着爬了一下中原网,爬取率是挺理想的。@阡陌所在的地区是广东,地区优势明显。一些地方平台支持连续下载100天300篇数据,更全面。
还有500篇数据爬取花了8小时。总之很重要的一点就是善于发现和利用搜索引擎提供的爬虫接口,分享一下搜索引擎接口,以及搜索结果:(想学习爬虫的可以看看我专栏的文章教程有爬虫基础的都会看看)but,,一般现在公众号中分享的结果有很多都是刷出来的粉丝,相当的不正确。为了爬取准确的数据,我试着再重新爬取2000个公众号的抓取结果,速度是不是快了很多。
而且有些标题党的文章也很容易就爬取到。2016-12-23更新结果重新爬取了1000个公众号,取其中500个里面最精确的数据。