新浪微博数据采集和数据分析的解析能力考验很大的因素
优采云 发布时间: 2021-08-27 19:02新浪微博数据采集和数据分析的解析能力考验很大的因素
新浪微博data采集和数据分析曾经非常繁荣。当时,新浪微博的api是开放的。有一次去一所大学,40台电脑同时通过api采集数据。那个时候,看到画出来的社交图就觉得好爽。我们的许多程序员都对可视化微博数据感到非常兴奋。事实上,翻过书后,我意识到社会网络分析是社会学的一个非常重要的分支。而且它很早就被创造出来了。真心觉得IT男的知识面好窄。
结果,好景不长。 api 不再像这样打开了。许多研究工作停滞不前。上面提到的学院正在准备项目验收,项目组长成了火锅上的蚂蚁。
微博数据是品牌研究、竞争研究和消费者画像的重要数据来源。每个人都必须再次回来寻找网络爬虫寻求帮助。但是,根据微博的访问控制策略,可用的访问量是非常有限的。如果访问次数过多,微博账号将被暂时冻结。电脑的IP也会被屏蔽,需要清除cookies。
所以,云爬虫采集很容易被屏蔽,因为数据中心机房使用的是固定IP,一旦被屏蔽,很长时间都不会被解锁。使用ADSL等动态访问方式,被阻塞的可能性小很多,动态IP地址不会被长时间阻塞。
另外,如果你使用关键词search 来抓取微博,最好使用周期性和连续搜索。微博虽然有按时间段搜索历史数据的界面,但搜索结果远不如instant采集,时间越长越少。因此,尽量开启周期性采集功能,保持最新消息采集下。
越来越多的网站使用非常复杂智能的js代码,对网络爬虫的解析能力进行了极大的考验。一定要选择具备浏览器所有特性的网络爬虫,否则登录过程很容易被拦截。 另外,最好先手动登录,然后让爬虫使用浏览器安全管理器保存的登录状态,抓取即可。