基于HITS算法的微博采集系统的设计与实现

优采云 发布时间: 2020-08-07 10:20

  [摘要]: 微博是微博客的缩写,是博客的一种形式. 这是一种广播式社交网络方法,用于通过用户之间的以下关系共享简短的即时信息. 微博近年来迎来了爆炸性的发展,并逐渐成为互联网上最受欢迎的社交场所之一. 截至2017年9月,新浪微博每月活跃用户达到3.76亿,每日活跃用户达到1.65亿. 微博活跃用户持续稳定增长. 目前,微博网络的影响力越来越大. 政府,企业,学校,名人,甚至主要新闻媒体网站都开放了微博. 越来越多的人参与其中,因此每天在微博上都会产生大量新信息. 为了充分利用海量微博信息,挖掘微博的潜在价值,采集微博关键信息,尤其是粉丝众多,影响力大的用户发布的微博信息,在互联网上. 在分析民意时很有必要. 因此,本文致力于研究微博信息的采集和分析微博用户的影响,并设计和实现基于Hits算法的微博采集系统. 该系统的主要功能是根据关键词采集微博的内容,并根据微博用户的影响对采集的结果进行排序,然后将其呈现给用户. 本文的主要工作包括以下几个方面: (1)阅读了大量文献和相关资料,并对微博,微博信息采集和结果排序算法的研究现状有了初步的了解. 根据系统的研究背景和意义,确定系统的需求分析,确定系统需要实现的两个功能: 信息采集和采集结果分类,并在此基础上学习相关技术,包括网络信息采集技术,API接口调用技术,网页排序算法等.

  (2)本文将Web链接分析算法Hits算法应用于微博用户影响力的计算,并将微博用户的注意力与被关注者之间的关系视为网页之间的连接关系,并结合了针对微博用户的特征进行改进,提出基于Hits算法的微博用户影响力评价算法. 改进的算法可以更好地提高排序结果的准确性. (3)在分析系统需求的基础上,设计了基于Hits算法的微博信息采集系统的各个功能模块,主要包括微博内容采集模块,用户信息采集模块,用户关系采集模块以及使用方法. 改进了命中算法采集结果排序模块. 具体地,微博内容采集模块主要实现基于关键词的微博内容采集功能;用户信息采集模块主要根据上一步的用户名采集每个用户的信息,包括用户的好友数. ,粉丝数量,微博​​数量等;用户关系模块主要用于采集用户之间的粉丝对应关系;采集结果排序模块主要是对采集的结果进行分析,计算用户的影响力,并计算用户的影响力. 大小对采集的结果进行排序,最后将其显示在系统界面上. 最后,数据库表旨在确保所存储数据的完整性和准确性. (4)在系统级设计部分,根据提高内聚力,减少耦合的思想,将系统应用架构分为三层: 数据访问层,域层和表示层;此外,该系统使用的数据库版本是Microsoft SQL Server 2008,开发环境是Visual Studio2010. 最后,通过测试,发现本文设计的系统可以更好地完成数据采集功能并提供排序结果更准确.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线