网站调用新浪微博内容(目标爬取新浪微博用户数据，免费领取Python学习教程)

优采云发布时间: 2021-10-12 14:31

　　目标

　　抓取新浪微博用户数据，包括以下字段：id、昵称、粉丝数、关注数、微博数、微博内容、转发数、评论数、点赞数、发布时间、来源、是原创还是转发。（本文以GUCCI为例）

　　想学Python。关注小编，私信【学习资料】，即可免费领取全套系统板Python学习教程！

　　方法

　　+ 使用 selenium 模拟爬虫

　　+ 使用 BeautifulSoup 解析 HTML

　　结果显示

　　步骤分解

　　1.选择抓取目标网址

　　首先，在准备开始爬取之前，您必须弄清楚要爬取哪个网址。新浪微博网站分为网页版和手机版两种。大部分微博数据抓取都会选择抓取移动端，因为相比较而言，移动端基本收录了你想要的所有数据，而移动端相对PC端是轻量级的。

　　下面是GUCCI手机和PC的网页展示。

　　2.模拟登录

　　在微博移动端设置爬取数据后，就可以模拟登录了。

　　模拟登录网址

　　登陆页面下方

　　模拟登录代码

　　3.获取用户的微博页码

　　登录后，您可以输入您要抓取的商家信息。因为每个商家的微博数量不同，对应的微博页码也不同。这里先抓取商家的微博页码。同时，爬取那些公开的信息，比如用户uid、用户名、微博数、关注数、粉丝数等。

　　4. 根据爬取的最大页数循环爬取所有数据

　　得到最大页数后，直接通过循环抓取每个页面的数据。抓取到的数据包括微博内容、转发数、评论数、点赞数、微博发布时间、微博来源、是否原创或转发。

　　5.获取所有数据后，可以写入csv文件或者excel

　　最终结果如上图所示！！！！

　　完整的微博爬虫就在这里解决！！！

0

2021-10-12

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册