网站调用新浪微博内容(通过Python爬虫来爬取新浪微博用户数据的文章教程)
优采云 发布时间: 2022-02-01 03:13网站调用新浪微博内容(通过Python爬虫来爬取新浪微博用户数据的文章教程)
新浪微博作为新时代流行的新媒体社交平台,拥有大量的用户行为和商业数据。因此,研究人员需要获取新浪微博数据。但新浪微博数据量巨大,最好的获取方式无疑是使用Python爬虫获取。网上有一些使用Python爬虫爬取新浪微博数据的教程,但是完整的介绍和爬取用户的所有数据信息都比较少,所以这里主要用selenium包爬取新浪微博用户数据的文章文章.
目标
抓取新浪微博用户数据,包括以下字段:id、昵称、关注数、关注数、微博数、每条微博内容、转发数、评论数、点赞数、发布时间、来源、是 原创 还是转推。(本文以GUCCI(古驰)为例)
方法
+ 用 selenium 模拟爬虫
+ 使用 BeautifulSoup 解析 HTML
结果显示
步骤分解
1.选择抓取目标网址
首先,在你准备好开始爬取之前,你必须想好要爬取哪个 URL。新浪微博网站分为网页和手机两部分。大部分爬取微博数据都会选择爬手机,因为相比之下,手机基本收录了你想要的所有数据,而且手机相对PC端来说是轻量级的。
下面是GUCCI的移动端和PC端的网页展示。
2.模拟登录
决定爬取微博手机数据后,就该模拟登录了。
模拟登录网址
登录页面如下所示
模拟登录代码
3.获取用户微博的页码
登录后可以输入要抓取的商户信息。因为每个商家的微博数量不同,对应的微博页码也不同。在这里,先爬下商家的微博页码。同时,抓取那些公开的信息,如用户uid、用户名、微博数、关注者数、粉丝数。
图像.png
4.根据爬取的最大页码,循环爬取所有数据
得到最大页码后,直接通过循环爬取每一页数据。抓取的数据包括微博内容、转发数、评论数、点赞数、发微博时间、微博来源、是原创还是转发。
4.获取所有数据后,可以写入csv文件,或者excel,最终结果如上图所示
文章完整的微博爬虫就在这里解决!