优化的解决方案:基于API的微博信息采集系统设计与实现

优采云 发布时间: 2021-01-16 08:06

  优化的解决方案:基于API的微博信息采集系统设计与实现

  摘要:微博已成为网络信息的重要来源。本文分析了微博信息采集的相关方法和技术,提出了一种基于API的信息采集方法,然后设计了一种信息采集,该系统可以对新浪微博相关信息进行采集执行。实验测试表明,采集信息系统可以快速有效地[新浪微博]信息。

  关键词:新浪微博;微博界面;信息采集; C#语言

  中文图书馆分类号:TP315文档标识号:A文章编号:1009-3044(2013)17-4005-04

  微博[1]是微博的缩写,是一个基于用户关系的信息共享,传播和获取的平台。

  用户可以通过WEB,WAP和各种客户端组件个人社区来更新大约140个字符的信息,并实现即时共享。根据中国互联网络信息中心发布的《中国互联网络发展状况第31次统计报告》,截至2012年12月底,截至2012年12月,我国微博用户数为3.0.9 10亿,比2011年底增加了5873。百万,微博用户在网民中的比例比去年年底增加了6个百分点,达到54.7%[2]。借助微博网络

  随着影响力的迅速扩大,政府部门,学校,知名企业和公众人物都开设了微博。在公众的参与下,微博已成为一个强大的虚拟社会。微博已成为网络信息的重要来源。如何快速有效地使用它采集微博信息已经成为具有重要应用价值的研究。

  1研究方法和技术路线

  国内微博用户主要是新浪微博,因此本文以新浪微博为例,设计研究方法和技术路线。通过对*敏*感*词*科技文献和实际应用案例的分析,发现新浪微博采集方法的当前信息主要分为两类:一类是“模拟登录”,“网络爬虫” [3]。和“网络内容分析” [4]结合这三种技术的信息采集方法。第二个基于新浪微博开放平台的API文档。开发人员编写自己的程序来调用微博API来处理微博信息采集。对于第一种方法,难度较高,研究技术复杂,尤其是“模拟登录”步骤。有必要随时跟踪新浪微博的登录加密算法。新浪微博登录加密算法的更改将导致“网络爬虫”的失败,最终导致采集无法找到微博信息。与此同时,“网络爬虫” 采集访问的网页要求“ Web内容分析”,并且与基于API的数据相比,效率和性能之间存在明显差距采集。基于以上因素,本文打算使用第二种方法进行研究。

  基于新浪微博开放平台API文档的微博信息采集系统主要采用两种研究方法:文档分析法和实验测试法。文档分析方法:请参见新浪微博开放平台的API文档,并将这些API描述文档作为单独的接口文件编写。实验测试方法:在平台[5]上,以C / S模式开发程序,调用接口类采集微博返回的JOSN数据流,并实现数据的相关测试和开发采集。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线