文档介绍:毕业论文_微博信息抓取系统(组图)
优采云 发布时间: 2021-07-13 01:10文档介绍:毕业论文_微博信息抓取系统(组图)
文档介绍:毕业论文_微博信息采集系统 微博信息采集系统 [摘要] 本文针对微博的海量数据和用户关系群,提出并实现了一个基于新浪和Oauth2.0的微博的开放平台信息抓取系统。系统实现的主要功能有:(1)微博大厅的滚动微博及其评论爬行(2)微博用户的好友及其相互关系)。微博通过线程池和数据库实现。博客信息的抓取和存储,通过prefuse API图形化展示用户关系,从实际运行效果分析,抓取系统可以满足各种SNS应用的内容填充和网络用户社交关系的分析。【 关键词】Oauth2.0;新浪开放平台;社交网络关系;序言介绍研究背景和意义随着移动互联网的发展,中国迎来了真正的微博时代。门槛低、便捷、多元化、同步的发布渠道,使信息生产趋向于零时间。微博与其他信息交流方式不同,最大的特点在于其技术性l 便携性。 2009年,3G牌照的发放标志着移动互联网时代的到来,手机和互联网这两个中国发展最快的媒体开始融合,并为快速扩张的移动互联网做了技术准备。微博。与传统博客相比,微博能够产生粘性强的原因在于其技术上无与伦比的便携性。用户可以通过多种方式登录微博并发布微博。
尤其是手机与微博的绑定,使得这种贴近微博用户的新媒体满足了4A元素,即Anything, Anywhere, Anytime, Anytime。任何用户都可以随时随地发布任何内容。从此,人们的信息交流得到了前所未有的解放。微博信息抓取系统通过开放平台的API抓取我们需要的信息,在运营初期丰富各种SNS[1]社区应用的数据量和用户量,吸引更多用户的关注和使用。在 SNS 社区交朋友是现在在线用户相互交流的最重要方式。目前最流行的SNS网络是开心网、人人网和各大微博。其中,新浪微博的活跃用户数最多。本课题主要以新浪微博为主要研究和抓取对象。信息捕捉功能。整个系统的框架具有很强的可扩展性,可以根据需要添加其他SNS网络社区抢模块。此外,本系统还从网络用户的社交网络关系入手,以图形化的方式展示网络用户之间的社交关系。本专题的主要工作 本文解决的主要问题是抓取新浪微博微博馆的数据及其相关评论和用户信息。包括新浪微博的Oauth2.0认证,通过调用新浪微博API,获取并解析服务器返回的json文档,建立相应的数据库并存储在数据库中。并且通过Prefuse,将抓取到的微博用户的好友关系直观的展现出来。
实现全自动抓取、解析和数据存储过程。大大提高了信息采集的效率,大大降低了信息采集的错误率。满足企事业单位对微博信息内容和网民社会关系分析的需求。新浪微博开放平台 微博用户授权2.1.1 新浪微博应用创建 新浪微博开放平台允许所有微博用户创建自己的应用。用户只需要填写开发者的详细信息和申请信息。相关信息可以创建您自己的应用程序。应用创建成功后,开发者会获取应用的A*敏*感*词*EY和SercretKey。我们使用这两个键来进行相关的技术开发工作。这两个键唯一地标识了我们的应用程序。其新浪微博应用创建与发布流程图如图1所示。 图1 新浪开放平台应用创建与发布流程图2.1.2OAuth2.0 授权与鉴权 OAuth2.0是OAuth[2] 协议的下一个版本,始于 2006 年。 OAuth(开放授权)是一种开放标准,允许用户允许第三方应用程序访问用户存储在其上的私人资源(如照片、视频、联系人列表)某某网站不提供用户名和密码给第三方使用。 OAuth 允许用户提供令牌而不是用户名和密码来访问他们存储在特定服务提供商中的数据。每个令牌授权特定的网站(例如视频编辑网站)在特定时间段内(例如,在接下来的2小时内)访问特定资源(例如,只是某个专辑中的视频) .
通过这种方式,OAuth 允许用户授权第三方网站 访问他们存储在另一个服务提供商上的信息,而无需共享他们的访问权限或他们的所有数据内容。与OAuth1.0相比,OAuth2.0的整个授权验证过程更简单、更安全。也是未来新浪微博开发平台最重要的用户验证和授权方式。使用新的2.0 协议进行授权和认证。开发者只需调用oauth2/authorize接口引导用户进行授权,重定向后的网页获取授权后的code code后,服务端oauth2/ess_token、ess_token调用新浪微博API。授权的基本流程如图2所示: 图2 OAuth认证的基本流程虽然2.0的授权机制更简单安全,但越安全越严格,ess_token的有效期仅为24 小时处于开发和测试阶段。 ess_token。部分新浪微博界面也有访问频率限制。在软件开发和测试阶段,一个接口的访问频率通常限制在每小时150次。当应用程序获得批准并正式发布时,将会有越来越多的权限。其授权标准也将得到提高,访问限制的频率将增加。访问令牌