Python使用Sina API实现数据捕获
优采云 发布时间: 2020-08-08 00:141. 首先,让我们看一下获得的最终结果,是否是您想知道的东西,然后决定是否继续读下去.
我主要抓取了大约4天的数据. 该图显示大约有360万个数据. 由于我在自己的计算机上爬网以获取数据,因此有时晚上网络会中断. 因此,大约一天之内就可以抓取大约一百万个最新的微博数据(因为我将其称为最新的微博API public_timeline)
API文档中定义了很多返回类型(以json数据格式返回,我选择了一些我认为要抓住它的重要信息,如图所示): 可能是ID号,位置,粉丝数,微博内容,发布时间等. 当然,这些数据可以根据您的需要进行自定义. )
可能是内容,如果您认为对您有所帮助,请继续阅读...第一次写博客有点冗长
2. 初步准备
我们需要什么:
数据库: mongodb(您可以使用客户端MongoBooster)
开发环境: Python2.7(我使用的IDE是Pycharm)
新浪开发者帐户: 只需注册您自己的新浪微博帐户(我们稍后会讨论)
所需的库: 请求和pymongo(可在Pycharm中下载)
2.1Mongodb安装
MongoDB是高性能,开源,无模式的基于文档的数据库,并且是最受欢迎的NoSql数据库之一. 在许多情况下,它可以用来代替传统的关系数据库或键/值存储. Mongo用C ++开发. Mongo的官方网站地址是: 读者可以在这里获取更多详细信息.
2.2如何注册新浪开发者帐户
注册一个新浪微博帐户(163邮箱,手机号码)
创建后,您需要填写手机号码验证
进入Sina Opener平台:
点击以继续创建
第一次创建应用程序时,需要填写以下信息:
代码实现
有了令牌,捕获数据非常简单.
可以抓取多少数据取决于您的令牌权限
下一步是使用API获取数据: 创建一个新文件weibo_run.py