一种基于网路爬虫和新浪API相结合的微博数据的采集方法与流程

优采云 发布时间: 2020-08-27 06:08

  一种基于网路爬虫和新浪API相结合的微博数据的采集方法与流程

  

  本发明涉及微博数据采集技术领域,特别是一种基于网路爬虫和新浪API 相结合的微博数据的采集方法。

  背景技术:

  对于微博中数据采集非常重要,这样也能为举办微博中社会安全 事件的探测提供重要的数据基础。目前,微博的数据采集方式主要有 两种:基于新浪API和针对新浪微博平台的网路爬虫。基于新浪API 的方案可以获取格式比较规范的数据,但是其调用次数有一定的限制, 无法进行*敏*感*词*的数据爬取,并且有些信息难以获取到;基于网路爬 虫的方式其实可以获取*敏*感*词*的数据,但是其页面的剖析处理过程比 较复杂,并且其爬取的数据格式不规范,噪声数据比较多。

  技术实现要素:

  本发明的目的是要解决现有技术中存在的不足,提供一种基于网路爬虫和 新浪API相结合的微博数据的采集方法。

  为达到上述目的,本发明是根据以下技术方案施行的:

  一种基于网路爬虫和新浪API相结合的微博数据的采集方法,包括以下步 骤:

  Step1:基于新浪API从微博名人榜获取*敏*感*词*用户及其对应的粉丝用户和关 注用户,加入到*敏*感*词*列表;

  Step2:将*敏*感*词*列表转换为*敏*感*词*URL,并判定*敏*感*词*用户列表是否为空,若为 空则步入Step4,否则步入Step3;

  Step3:遍历*敏*感*词*列表,采用网路爬虫的方式,爬取*敏*感*词*用户的相关微博信 息、微博评论信息和用户个人信息,并将微博评论用户加入到*敏*感*词*列表中;

  Step4:结束。

  具体地,所述Step3包括:

  获取*敏*感*词*列表中待爬取URL,并进行URL解析与信息获取,具体包括:获 取用户信息URL并步入相应页面爬取用户粉丝用户和关注用户以及爬取用户的 其他相关信息;获取用户微博URL并步入相应页面爬取微博转发点赞、评论用 户、爬取微博评论文本以及爬取微博其他相关信息;并将爬取的用户粉丝用户 和关注用户、用户的其他相关信息、微博转发点赞、评论用户、爬取微博评论 文本以及爬取微博其他相关建立相应的微博数据资源库;同时将爬取的用户粉 丝用户和关注用户、爬取的微博转发点赞、评论用户加入*敏*感*词*列表中。

  与现有技术相比,本发明通过将新浪API和针对新浪微博平台的网路爬虫 相结合,既可以获取格式比较规范的微博数据,又能进行*敏*感*词*的数据爬取, 并且爬取的数据格式愈发规范,噪声数据比较少,进而才能为举办微博中社会 安全风波的探测提供重要的数据基础。

  附图说明

  图1为本发明的流程图。

  具体施行方法

  下面结合具体施行例对本发明作进一步描述,在此发明的示意性施行例以 及说明拿来解释本发明,但并不作为对本发明的限定。

  如图1所示,本施行例的一种基于网路爬虫和新浪API相结合的微博数据 的采集方法,包括以下步骤:

  Step1:基于新浪API从微博名人榜获取*敏*感*词*用户及其对应的粉丝用户和关 注用户,加入到*敏*感*词*列表;

  Step2:将*敏*感*词*列表转换为*敏*感*词*URL,并判定*敏*感*词*用户列表是否为空,若为 空则步入Step4,否则步入Step3;

  Step3:遍历*敏*感*词*列表,采用网路爬虫的方式,爬取*敏*感*词*用户的相关微博信 息、微博评论信息和用户个人信息,并将微博评论用户加入到*敏*感*词*列表中,具 体步骤为:获取*敏*感*词*列表中待爬取URL,并进行URL解析与信息获取,具体包 括:获取用户信息URL并步入相应页面从微博数据资源库中爬取用户粉丝用户 和关注用户以及爬取用户的其他相关信息;获取用户微博URL并步入相应页面 从微博数据资源库中爬取微博转发点赞、评论用户、爬取微博评论文本以及爬 取微博其他相关信息;同时将爬取的用户粉丝用户和关注用户、爬取的微博转 发点赞、评论用户加入*敏*感*词*列表中。

  Step4:结束。

  根据本施行例的方式采集完微博数据后,就可以对采集到的微博文本数据 进行处理,清除其中的异常数据和噪音数据,实现数据格式的标准化,并建立 相应的微博资源库,进而才能为举办微博中社会安全风波的探测提供重要的数 据基础。

  本发明的技术方案不限于上述具体施行例的限制,凡是按照本发明的技术 方案作出的技术变型,均落入本发明的保护范围之内。

  当前第1页1&nbsp2&nbsp3&nbsp

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线