Python使用Sina API实现数据捕获

优采云发布时间: 2020-08-08 00:14

　　1. 首先，让我们看一下获得的最终结果，是否是您想知道的东西，然后决定是否继续读下去.

　　我主要抓取了大约4天的数据. 该图显示大约有360万个数据. 由于我在自己的计算机上爬网以获取数据，因此有时晚上网络会中断. 因此，大约一天之内就可以抓取大约一百万个最新的微博数据（因为我将其称为最新的微博API public_timeline）

　　API文档中定义了很多返回类型（以json数据格式返回，我选择了一些我认为要抓住它的重要信息，如图所示）: 可能是ID号，位置，粉丝数，微博内容，发布时间等. 当然，这些数据可以根据您的需要进行自定义. ）

　　可能是内容，如果您认为对您有所帮助，请继续阅读...第一次写博客有点冗长

　　2. 初步准备

　　我们需要什么:

　　数据库: mongodb（您可以使用客户端MongoBooster）

　　开发环境: Python2.7（我使用的IDE是Pycharm）

　　新浪开发者帐户: 只需注册您自己的新浪微博帐户（我们稍后会讨论）

　　所需的库: 请求和pymongo（可在Pycharm中下载）

　　2.1Mongodb安装

　　MongoDB是高性能，开源，无模式的基于文档的数据库，并且是最受欢迎的NoSql数据库之一. 在许多情况下，它可以用来代替传统的关系数据库或键/值存储. Mongo用C ++开发. Mongo的官方网站地址是: 读者可以在这里获取更多详细信息.

　　2.2如何注册新浪开发者帐户

　　注册一个新浪微博帐户（163邮箱，手机号码）

　　创建后，您需要填写手机号码验证

　　进入Sina Opener平台:

　　点击以继续创建

　　第一次创建应用程序时，需要填写以下信息:

　　代码实现

　　有了令牌，捕获数据非常简单.

　　可以抓取多少数据取决于您的令牌权限

　　下一步是使用API获取数据: 创建一个新文件weibo_run.py

0

2020-08-08

通过关键词采集文章采集api

0 个评论

要回复文章请先登录或注册