全网微博数据每日亿级实时采集
优采云 发布时间: 2020-08-09 08:34实验数据
硬件配置
2台服务器,每台的配置如下
系统CPU显存硬碟
Ubuntu16.04E5-2630 v4 @ 2.20GHz * 832G1T
抓取速率
每台服务器满负荷运转:
每台服务器启动50个爬虫进程,两台共100个爬虫进程
每个进程的抓取情况:
可以看见每位进程,每分钟可以抓取300+页面。那么,一天共可以抓取:
300(pages/(process*min)) * 100(prcesses) * 60*24(mins/day) = 43,200,000(pages/day)
所以三天可以抓取4.3千万的页面
如果抓取用户个人信息,1(data/page) ,
则三天的数据抓取量是 43,200,000(pages/day) * 1(data/page) = 43,200,000(data/day) 4.3千万
如果抓取用户微博数据,10(data/page) ,
则三天的数据抓取量是 43,200,000(pages/day) * 10(data/page) = 432,000,000(data/day) 4.3亿
数据库统计
MongoDB IO量
每秒4500+的数据插入量,所以三天就是4亿+的数据采集入库量
用户*敏*感*词*
微博用户id采用海量采集的形式,目前早已拥有5.5千万有效真实用户的微博id,并且在不断下降中
发掘id有效id有效百分比
97,267,43555,832,4010.574
用户微博数据
实时抓取5.5千万+有效用户的微博,数据统计
微博发表日期为11.20~11.24日之间的微博
11.2011.2111.2211.2311.24
13,864,35918,438,46018,866,07218,143,92311,351,606
当前数据库总数:537,475,459 (5亿)
数据展示
用户数据
微博数据