基于API微博信息采集系统设计与实现(1)_光明网
优采云 发布时间: 2021-06-28 02:01基于API微博信息采集系统设计与实现(1)_光明网
基于API微博信息采集系统设计与实现总结:微博已经成为网络信息的重要来源。本文分析了微博Information采集的相关方法和技术,提出了基于API的information采集方法,然后设计了一个信息采集系统,可以采集新浪微博上的相关信息。实验测试表明信息采集系统可以快速有效地采集新浪微博信息。 关键词:新浪微博;微博界面;信息采集; C#语言中文库分类号:TP315 文档识别码:A文章编号:1009-3044(2013)17-4005-04 微博[1],微博的缩写,是一个分享、传播和获取的平台基于用户关系的信息,用户可以通过WEB、WAP、各种客户端组件个人社区更新140字左右的信息实时分享中国互联网络发布的《第31次中国互联网络发展状况统计报告》信息中心显示,截至2012年12月末,截至2012年12月末,中国微博用户数为3.090亿,较2011年末增加5873万,微博占比网民用户比去年底增长6个百分点,达到54.7%[2]。公众人物已开通微博。在公众的参与下,微博已经成为一个强大的虚拟社会。微博已成为网络信息的重要来源。如何快速有效地使用采集微博信息已成为一项具有重要应用价值的研究。
1 研究方法和技术路线 国内微博用户主要是新浪微博,因此本文拟以新浪微博为例,设计研究方法和技术路线。通过对*敏*感*词*科技文献和实际应用案例的分析发现,目前新浪微博的信息采集方法主要分为两类:一类是“模拟登录”、“网络爬虫”[3] ,以及“网页内容分析” [4] 结合三种技术的信息采集方法。二是基于新浪微博开放平台的API文档。开发者自己编写程序调用微博API来执行微博信息采集。对于第一种方法,难度较高,研究技术复杂,尤其是“模拟登录”这一步。需要随时跟踪新浪微博的登录加密算法。新浪微博登录加密算法的变化会导致“网络爬虫”。 “”的失败最终导致采集无法在微博上找到信息。同时,“网络爬虫”采集到达的网页需要进行“页面内容分析”,与基于API的数据采集相比,在效率和性能上存在明显差距。基于以上因素,本文拟采用第二种方法进行研究。基于新浪微博开放平台API???文件,微博信息采集系统主要采用两种研究方法:文档分析和实验测试。文档分析方法:参考新浪微博开放平台的API文档,将这些API描述文档写成单独的接口文件。实验测试方法:在VS.NET2010平台[5]上,以C/S模式开发程序调用接口类,采集微博返回的JOSN数据流,实现相关测试开发数据采集。
根据以上两种研究方法,设计本研究的技术路线:首先,申请新浪微博开放平台App Key和App Secret。审核通过后,阅读理解API文档,将API文档描述写入API接口。代码类(c#语言),然后来测试OAuth2.0的认证。认证通过后,可以获得Access Token,从而有权限调用API的各种功能接口,然后通过POST或者GET调用API接口,最后返回JOSN数据流,最后解析将此数据流保存为本地文本文件或数据库。详细技术路线如图1所示。 2 研究内容设计 微博信息采集系统功能结构 如图2所示,系统分为七个部分,分别是:微博界面认证、微博用户登录、登录用户发送微博、采集当前登录用户信息、采集其他用户信息、采集其他用户微博、采集学校信息、采集微博信息内容。 1)微博接口认证:访问大部分新浪微博API,如发微博、获取私信、关注等,都需要用户身份。目前新浪微博开放平台上的用户身份认证包括OAuth2.0和Basic Auth(仅用于调试应用开发者的界面),新版界面仅支持这两种方法[6]。因此,系统设计开发的第一步就是做微博界面认证功能。 2)微博用户登录:认证通过后,所有在新浪微博上注册的用户都可以登录本系统,并可以通过本系统发布微博。
3)采集Login 用户信息:用户登录后,可以通过本系统查看自己的账号信息、自己的微博信息以及关注者的微博信息。 4)采集其他用户信息:这个功能主要是输入微博用户的昵称,你可以采集获取昵称用户的账号信息,比如有多少粉丝,关注谁,还有他被多少人抓到了关注,这个信息在微博采集中也是很有价值的。 5)采集 其他用户的微博:此功能也使用微博用户的昵称来更改用户采集发送的所有微博信息。此功能的目的是扩展到未来每隔一个时间段。 ,采集目标集合中多个微博用户的微博信息自动发送到本地进行数据内容分析。 6)采集学校信息:该函数通过学校名称的模糊查询,获取采集学校在微博中的账号ID、学校所在区域、学校类型信息。这就是采集学校在微博影响力的基本数据。 7)采集微博信息内容:您可以在微博内容中按关键词进行查询,采集这里收录关键词微博信息。但由于本次API接口调用需要高级权限,在系统完全发布前和新浪微博开放平台审核前无法直接测试使用。 3 主要功能实现3.1 微博界面鉴权功能新浪微博API访问大部分需要用户鉴权。本系统采用OAuth2.0设计微博界面认证功能。新浪微博认证流程如图3所示。
4 总结 本文主要对微博信息采集的方法和技术进行了一系列的研究,然后设计开发了一个基于API的新浪微博信息采集系统,实现了微博采集的基础信息k15@,在一定程度上解决了微博信息采集的自动化和结果数据采集格式的标准化。但是,目前本系统的微博信息采集方法只能通过输入单个“关键词”采集进行唯一匹配,并且没有多个“搜索词”批次采集,也没有一个“话题类型”“微博信息采集”的功能,所以下一步的研究就是如何设计话题模型来优化系统。参考文献:[1]文锐.微博智智[J].软件工程师,2009( 12):19-20. [2] 中国互联网络信息中心. 第31次中国互联网络发展状况统计报告[EB/OL]. (2013-01-15). /hlwxzbg/hlwtjbg/201301/38508.htm. [3] 罗刚, 王振东. 编写自己的网络爬虫[ M]. 北京: 清华大学出版社, 2010. [4] 于曼全, 陈铁瑞,徐洪波. 基于块的网页信息解析器的研究与设计[J]. 计算机应用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al. Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博开放平台。授权机制说明[EB/OL]。 (2013-01-19). D%83%E6%9C%BA%E5%88%B6%E8 %AF%B4%E6 %98%8E。