网站调用新浪微博内容(目标爬取新浪微博用户数据,免费领取Python学习教程)

优采云 发布时间: 2021-10-12 14:31

  网站调用新浪微博内容(目标爬取新浪微博用户数据,免费领取Python学习教程)

  目标

  抓取新浪微博用户数据,包括以下字段:id、昵称、粉丝数、关注数、微博数、微博内容、转发数、评论数、点赞数、发布时间、来源、是原创 还是转发。(本文以GUCCI为例)

  

  想学Python。关注小编,私信【学习资料】,即可免费领取全套系统板Python学习教程!

  方法

  + 使用 selenium 模拟爬虫

  + 使用 BeautifulSoup 解析 HTML

  结果显示

  

  步骤分解

  1.选择抓取目标网址

  首先,在准备开始爬取之前,您必须弄清楚要爬取哪个网址。新浪微博网站分为网页版和手机版两种。大部分微博数据抓取都会选择抓取移动端,因为相比较而言,移动端基本收录了你想要的所有数据,而移动端相对PC端是轻量级的。

  下面是GUCCI手机和PC的网页展示。

  

  2.模拟登录

  在微博移动端设置爬取数据后,就可以模拟登录了。

  模拟登录网址

  登陆页面下方

  

  模拟登录代码

  

  3.获取用户的微博页码

  登录后,您可以输入您要抓取的商家信息。因为每个商家的微博数量不同,对应的微博页码也不同。这里先抓取商家的微博页码。同时,爬取那些公开的信息,比如用户uid、用户名、微博数、关注数、粉丝数等。

  

  4. 根据爬取的最大页数循环爬取所有数据

  得到最大页数后,直接通过循环抓取每个页面的数据。抓取到的数据包括微博内容、转发数、评论数、点赞数、微博发布时间、微博来源、是否原创或转发。

  

  5.获取所有数据后,可以写入csv文件或者excel

  最终结果如上图所示!!!!

  完整的微博爬虫就在这里解决!!!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线