基于API的微博信息采集系统设计与实现(组图)
优采云 发布时间: 2021-05-02 03:04基于API的微博信息采集系统设计与实现(组图)
基于API的微博信息采集系统设计与实现摘要:微博已成为网络信息的重要来源。本文分析了微博信息采集的相关方法和技术,提出了基于API 采集方法的信息,然后设计了可以在新浪微博相关信息上执行采集的信息采集系统。实验测试表明,信息采集系统可以快速有效地[新浪微博]信息。 关键词:新浪微博;微博界面;信息采集; C#语言中文图书馆分类号:TP315文档标识号:A 文章编号:1009-3044(201 3) 17-Weibo [1]是微博客的缩写,是基于信息的共享,传播和获取信息的平台根据用户关系,用户可以通过WEB,WAP和各种客户端组件个人社区更新约140个字符的信息,并实现即时共享。 ,截至2012年12月底,截至2012年12月,中国微博用户数为3. 9亿,较2011年底增加了5873。与去年年底相比增长了6个百分点,达到5 4. 7%[2]。随着微博网络,政府部门,学校,知名企业和公众的影响力迅速扩大cters已打开微博。
在公众的参与下,微博已成为一个强大的虚拟社会。微博已成为网络信息的重要来源。如何快速有效地使用它采集微博信息已经成为具有重要应用价值的研究。 1研究方法和技术路线国内微博用户主要是新浪微博,因此本文以新浪微博为例来设计研究方法和技术路线。通过对*敏*感*词*科技文献和实际应用案例的分析,发现新浪微博采集目前的信息主要有两种:一种是“模拟登录”,“网络爬虫” [3],“网站内容分析” [4]结合了这三种技术的信息采集方法。第二个是基于新浪微博开放平台的API文档。开发人员编写自己的程序来调用微博API来处理微博信息采集。对于第一种方法,难度较高,研究技术复杂,尤其是“模拟登录”步骤。有必要随时跟踪新浪微博的登录加密算法。新浪微博登录加密算法的更改将导致“网络爬虫”。 “最终导致采集无法找到微博信息的失败。同时,“网络爬虫” 采集访问的网页需要进行“页面内容分析”,并且存在明显的差距与基于API的数据采集相比,效率和性能之间存在差异,本文打算采用第二种方法进行研究,基于新浪微博开放平台API文档的微博信息采集系统主要采用两项研究方法:文献分析法和实验测试法。
文档分析方法:请参见新浪微博开放平台的API文档,并将这些API描述文档作为单独的接口文件编写。实验测试方法:关于VS。 NET2010平台[5],以C / S模式开发程序以调用接口类,采集微博返回的JOSN数据流,并实现数据的相关测试和开发采集。基于以上两种研究方法,设计了本研究的技术路线:首先,申请新浪微博开放平台的App Key和App Secret。通过审核后,阅读并理解API文档,并将API文档描述写入API接口代码类(c#语言),然后测试OAuth 2. 0身份验证。通过身份验证后,可以获得访问令牌,因此您有权调用API的各种功能接口,然后通过POST或GET调用API接口,最后返回JOSN数据流,最后解析该数据流即可保存为本地文本文件或数据库。详细的技术路线如图1所示。2研究内容设计微博信息采集系统功能结构如图2所示。系统分为七个部分,分别是:微博界面认证,微博用户登录,发送微博登录用户,采集当前登录用户信息,采集他人的用户信息,采集他人的用户微薄,采集学校信息,采集微博信息内容。
1)微博界面身份验证:要访问大多数新浪微博API,例如发布微博,获取私人消息以及进行后续操作,都需要用户身份。目前,新浪微博开放平台上的用户身份认证包括OAuth 2. 0和Basic。 Auth(仅用于属于该应用程序的开发人员的调试接口),该接口的新版本也仅支持这两种方法[6]。因此,系统设计与开发的第一步是实现微博界面认证功能。 2)微博用户登录:通过身份验证后,所有在新浪微博上注册的用户都可以登录该系统,并可以通过该系统发布微博。 3) 采集登录用户信息:用户登录后,可以通过该系统查看自己的账户信息,自己的微博信息以及关注者的微博信息。 4) 采集其他用户信息:此功能主要用于输入微博用户的昵称,您可以采集获取昵称用户的帐户信息,例如他拥有多少粉丝,他关注谁,还有多少人关注他,这个信息在微博采集中也非常有价值。 5) 采集其他用户的微博:此功能还使用微博用户的昵称来采集更改该用户发送的所有微博信息。此功能的目的是将来扩展到其他每个时间段。 ,自动将目标中的多个微博用户的微博信息设置为本地的微博信息,以进行数据内容分析。 6) 采集学校信息:此功能使用学校名称的模糊查询,以采集学校在微博中的帐户ID,学校所在的地区以及学校信息的类型。这是采集学校对微博的影响力的基本数据。
7) 采集微博信息内容:您可以单击微博内容的关键词进行查询,采集此微博信息收录此关键词。但是,由于此API接口调用需要高级权限,因此无法在系统完全发布之前和对新浪微博开放平台进行审查之前直接对其进行测试和使用。 3主要功能的实现3. 1微博界面身份验证功能大多数新浪微博API访问都需要用户身份验证。本系统采用OAuth 2. 0方法设计微博界面认证功能。新浪微博的身份验证过程如图3所示。 4小结本文主要对微博信息采集的方法和技术进行了一系列研究,然后设计并开发了一个基于API的新浪微博信息采集系统,该系统实现了微博采集的基本信息,在一定程度上解决了微博信息采集的自动化和结果数据格式采集的标准化。但是,该系统当前的微博信息采集方法只能通过输入单个“ 关键词” 采集进行唯一匹配,并且批次采集中没有多个“搜索词”,也没有具有“主题类型”。 “微博信息采集起作用,因此下一步的研究是如何设计主题模型来优化系统。参考文献:[1]温睿。微博的知识[J]。软件工程师,2009(1 2) :19-2 0. [2]中国互联网络信息中心。第31届中国互联网络发展状况统计报告[EB / OL]。(2013-01-1 5)。http:// www。。 cn / hlwfzyj / hlwxzbg / hlwtjbg / 201301 / t20130115_3850 8. htm。[3]罗刚,王振东。自己编写手写网络爬虫[M]。北京:清华大学出版社,201 0. [4]余曼泉,陈铁瑞,徐洪波。基于块的网页信息解析器的研究与设计[J]。计算机应用,2005,25(4):974-97 6. [5]尼克·兰道夫,大卫·加德纳,克里斯·安德森,et al。Professional Visual Studio 2010 [M]。Wrox,201 0. [6]新浪微博开放平台。授权机制的说明[EB / OL]。(2013-01-19)。http:// open 。weibo。com / wiki /%E6%8E%88%E6%9 D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E。