网站调用新浪微博内容(通过Python爬虫来爬取新浪微博用户数据的文章教程)

优采云 发布时间: 2022-02-01 03:13

  网站调用新浪微博内容(通过Python爬虫来爬取新浪微博用户数据的文章教程)

  新浪微博作为新时代流行的新媒体社交平台,拥有大量的用户行为和商业数据。因此,研究人员需要获取新浪微博数据。但新浪微博数据量巨大,最好的获取方式无疑是使用Python爬虫获取。网上有一些使用Python爬虫爬取新浪微博数据的教程,但是完整的介绍和爬取用户的所有数据信息都比较少,所以这里主要用selenium包爬取新浪微博用户数据的文章文章.

  目标

  抓取新浪微博用户数据,包括以下字段:id、昵称、关注数、关注数、微博数、每条微博内容、转发数、评论数、点赞数、发布时间、来源、是 原创 还是转推。(本文以GUCCI(古驰)为例)

  方法

  + 用 selenium 模拟爬虫

  + 使用 BeautifulSoup 解析 HTML

  结果显示

  步骤分解

  1.选择抓取目标网址

  首先,在你准备好开始爬取之前,你必须想好要爬取哪个 URL。新浪微博网站分为网页和手机两部分。大部分爬取微博数据都会选择爬手机,因为相比之下,手机基本收录了你想要的所有数据,而且手机相对PC端来说是轻量级的。

  下面是GUCCI的移动端和PC端的网页展示。

  2.模拟登录

  决定爬取微博手机数据后,就该模拟登录了。

  模拟登录网址

  登录页面如下所示

  模拟登录代码

  3.获取用户微博的页码

  登录后可以输入要抓取的商户信息。因为每个商家的微博数量不同,对应的微博页码也不同。在这里,先爬下商家的微博页码。同时,抓取那些公开的信息,如用户uid、用户名、微博数、关注者数、粉丝数。

  图像.png

  4.根据爬取的最大页码,循环爬取所有数据

  得到最大页码后,直接通过循环爬取每一页数据。抓取的数据包括微博内容、转发数、评论数、点赞数、发微博时间、微博来源、是原创还是转发。

  4.获取所有数据后,可以写入csv文件,或者excel,最终结果如上图所示

  文章完整的微博爬虫就在这里解决!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线