网站调用新浪微博内容(目标爬取新浪微博用户数据,免费领取Python学习教程)
优采云 发布时间: 2021-10-12 14:31网站调用新浪微博内容(目标爬取新浪微博用户数据,免费领取Python学习教程)
目标
抓取新浪微博用户数据,包括以下字段:id、昵称、粉丝数、关注数、微博数、微博内容、转发数、评论数、点赞数、发布时间、来源、是原创 还是转发。(本文以GUCCI为例)
想学Python。关注小编,私信【学习资料】,即可免费领取全套系统板Python学习教程!
方法
+ 使用 selenium 模拟爬虫
+ 使用 BeautifulSoup 解析 HTML
结果显示
步骤分解
1.选择抓取目标网址
首先,在准备开始爬取之前,您必须弄清楚要爬取哪个网址。新浪微博网站分为网页版和手机版两种。大部分微博数据抓取都会选择抓取移动端,因为相比较而言,移动端基本收录了你想要的所有数据,而移动端相对PC端是轻量级的。
下面是GUCCI手机和PC的网页展示。
2.模拟登录
在微博移动端设置爬取数据后,就可以模拟登录了。
模拟登录网址
登陆页面下方
模拟登录代码
3.获取用户的微博页码
登录后,您可以输入您要抓取的商家信息。因为每个商家的微博数量不同,对应的微博页码也不同。这里先抓取商家的微博页码。同时,爬取那些公开的信息,比如用户uid、用户名、微博数、关注数、粉丝数等。
4. 根据爬取的最大页数循环爬取所有数据
得到最大页数后,直接通过循环抓取每个页面的数据。抓取到的数据包括微博内容、转发数、评论数、点赞数、微博发布时间、微博来源、是否原创或转发。
5.获取所有数据后,可以写入csv文件或者excel
最终结果如上图所示!!!!
完整的微博爬虫就在这里解决!!!