使用python抓取一个人的所有信息_Python抓取新浪微博用户信息和内容

优采云 发布时间: 2021-07-29 04:00

  使用python抓取一个人的所有信息_Python抓取新浪微博用户信息和内容

  目标

  爬取新浪微博用户数据,包括以下字段:id、昵称、粉丝数、粉丝数、微博数、每条微博的内容、转发数、评论数、点赞数、发布时间、来源,无论是原创 还是转贴。 (本文以GUCCI为例)

  方法

  +使用 selenium 模拟爬虫

  +使用 BeautifulSoup 解析 HTML

  结果显示

  

  步骤分解

  1.选择抓取目标网址

  首先,在准备开始抓取之前,您必须弄清楚要抓取哪个网址。新浪微博网站分为网页版和手机版两种。大部分微博数据抓取都会选择抓取移动端,因为相比之下,移动端基本收录了你想要的所有数据,而移动端相对PC端轻量。

  以下是GUCCI手机端和PC端的网页展示。

  

  2.模拟登录

  设置好抓取微博手机数据后,就可以模拟登录了。

  模拟登录网址

  登陆页面的外观

  

  模拟登录代码

  

  

  3.获取用户微博页码

  登录后,您可以输入您要抓取的商家信息。因为每个商家的微博数量不同,对应的微博页码也不同。这里先抓取商家的微博页码。同时,爬取那些公开的信息,比如用户uid、用户名、微博数、关注数、粉丝数。

  

  4.根据最大爬取页数循环爬取所有数据

  得到最大页数后,直接通过循环抓取每一页数据。抓取到的数据包括微博内容、转发数、评论数、点赞数、发微博时间、微博来源,以及是原创还是转发。

  

  

  4.得到所有数据后,可以写入csv文件或者excel,最终结果会显示在上面

  文章来解决完整的微博爬虫!

  最后想一起学python和爬虫的可以来我的python学习裙【784758214】,里面有安装

  包和学习视频资料免费分享,朋友在里面交流,每天分享一些学习方法和需要注意的小细节

  我也会按时讲一些实际的项目案例。

  点击:加入

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线