一款基于多线程爬虫的微博关注网剖析工具
优采云 发布时间: 2020-05-04 08:05
由于网路延后和反爬机制的缘由,脚本运行速率仍比较慢,欢迎交流改进方案。
简要介绍一下脚本的作用:
分析器的基本思想和微博自带的推荐“你关注的XX也关注了YY”类似。分析器通过爬取用户关注列表,利用BFS深入到关注链的任意层,从而挖掘出好多你可能认识的人。同时通过简单的判断过滤掉大V用户和其他无效用户。
作为一个事例,运行分析器微博 爬虫软件,你将获得一个包括如下信息的用户列表。Level是指关注链层次微博 爬虫软件,Level=1表示你直接关注了该用户,Level=2表示你直接关注的用户关注了该用户,依此类推。Score用于表征该用户与你的关系网的相关程度,你也可以自定义Score的各项因子权重。
Nickname: 兴趣作祟的英雄
Gender: 男
Region: 上海 海淀区
Followers: 638
Tweets: 142
Last Tweet: 2019-05-11 04:06
Home Page:
Relation Level: 3
Relation Score: 90
完整源码及更多相关信息见附件,也可在GitHub下载完整源码(trioKun/Weibo-Relation-Analysis-Spider)。
下面给出分析器的核心部份~
[Python] 纯文本查看 复制代码