Python使用Sina API实现数据捕获

优采云 发布时间: 2020-08-08 00:14

  1. 首先,让我们看一下获得的最终结果,是否是您想知道的东西,然后决定是否继续读下去.

  

  我主要抓取了大约4天的数据. 该图显示大约有360万个数据. 由于我在自己的计算机上爬网以获取数据,因此有时晚上网络会中断. 因此,大约一天之内就可以抓取大约一百万个最新的微博数据(因为我将其称为最新的微博API public_timeline)

  API文档中定义了很多返回类型(以json数据格式返回,我选择了一些我认为要抓住它的重要信息,如图所示): 可能是ID号,位置,粉丝数,微博内容,发布时间等. 当然,这些数据可以根据您的需要进行自定义. )

  可能是内容,如果您认为对您有所帮助,请继续阅读...第一次写博客有点冗长

  2. 初步准备

  我们需要什么:

  数据库: mongodb(您可以使用客户端MongoBooster)

  开发环境: Python2.7(我使用的IDE是Pycharm)

  新浪开发者帐户: 只需注册您自己的新浪微博帐户(我们稍后会讨论)

  所需的库: 请求和pymongo(可在Pycharm中下载)

  2.1Mongodb安装

  MongoDB是高性能,开源,无模式的基于文档的数据库,并且是最受欢迎的NoSql数据库之一. 在许多情况下,它可以用来代替传统的关系数据库或键/值存储. Mongo用C ++开发. Mongo的官方网站地址是: 读者可以在这里获取更多详细信息.

  2.2如何注册新浪开发者帐户

  注册一个新浪微博帐户(163邮箱,手机号码)

  

  创建后,您需要填写手机号码验证

  进入Sina Opener平台:

  

  

  

  点击以继续创建

  第一次创建应用程序时,需要填写以下信息:

  

  代码实现

  有了令牌,捕获数据非常简单.

  可以抓取多少数据取决于您的令牌权限

  下一步是使用API​​获取数据: 创建一个新文件weibo_run.py

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线