解密:Python数据采集案例(1)：微博热搜榜采集_长行的博客-程序员秘密

优采云发布时间: 2022-10-06 23:35

　　时间：2020.05.25

　　目标

　　本例通过图文详细介绍网络请求和解析的方法。目标要求是：通过网络请求获取微博热搜榜前50名的热搜关键词，并将结果打印到控制台。

　　实施过程

　　总的来说，data采集爬虫的实现过程包括以下几个步骤：

　　下面我们按照上面的步骤来完成。

　　确定数据所在的Url

　　打开微博热搜榜，即Url为：

　　首先，我们需要确定目标数据是否存在于页面上，或者是通过 Ajax 加载的。我们可以在浏览器中右键（推荐使用Chrome浏览器）选择“查看网页源代码”。

　　这时候浏览器会打开一个新页面，在Url（网页地址）前加上view-source部分，网页中显示的关键词就是当前网页的源码.

　　我们使用快捷键Ctrl+F打开搜索框，在网页源码中搜索热搜列表页显示的文字。关键词，表示热搜列表直接加载到页面上，而不是通过Ajax。这时候我们只需要直接请求网页的URL就可以获取热搜榜数据了。

　　网页请求

　　下面我们使用 requests 模块来执行一个网页请求并打印请求的结果。代码如下：

　　import requests

if __name__ == "__main__":

response = requests.get("https://s.weibo.com/top/summary")

print(response.content.decode())

<p>

</p>

　　在打印的内容中，我们再次通过搜索找到了“在仙女桥上发现的北宋墓”，说明我们的请求成功获取了热搜榜数据，没有任何问题。

　　网页解析

　　再次回到浏览器，右键，选择“Inspect”，打开浏览器控制台（或者直接使用快捷键F12打开控制台）。

　　选择元素选择工具。

　　在元素选择模式下（元素选择工具的小箭头为蓝色），点击我们需要的信息采集。

　　此时，浏览器控制台将导航到目标信息所在的选项卡。

　　我们在标签上右击，选择“复制”，然后选择“复制选择器”，复制标签的CSS Selector路径，用来定位当前标签。例如第一个热搜关键词所在标签的CSS Selector为：

　　#pl_top_realtimehot > table > tbody > tr:nth-child(2) > td.td-02 > a

　　其中，#pl_top_realtimehot代表ID为pl_top_realtimehot的标签，即下图中第一行的div标签；> table 表示当前标签下一层的table标签，也就是下图中第二行的table标签；tr:nth-child(2) 表示当前标签下的第二个tr标签，即下图中选中的tr标签。

　　通过对网络结构的观察可以发现，每个热搜都是tbody标签下的一个独立的tr标签；因此，要同时获取不同热搜的关键词，我们只需要不再限制指定的tr标签即可，即删除tr:nth-中的:nth-child(2) CSS 选择器路径中的 child(2)。

　　#pl_top_realtimehot > table > tbody > tr > td.td-02 > a

　　在浏览器控制台的Elements选项卡中，使用Ctrl+F快捷键打开搜索框，在搜索框中搜索修改后的CSS Selector路径。可以得到51个结果，说明修改后的CSS Selector可以同时匹配所有热点。已搜索关键词。

　　接下来，我们使用Python的第三方模块——BeautifulSoup模块（pip安装命令：pip install BeautifulSoup4）来实现解析。收录请求的代码如下：

　　import requests

from bs4 import BeautifulSoup

if __name__ == "__main__":

response = requests.get("https://s.weibo.com/top/summary")

bs = BeautifulSoup(response.content.decode(), 'lxml')

for keyword_label in bs.select("#pl_top_realtimehot > table > tbody > tr > td.td-02 > a"):

print(keyword_label.text)

　　运行结果已经能够将所有热搜打印到控制台，满足目前的需求。

　　10个关键词把握2020中国经济走势

北宋古墓发现过仙桥

香港各界发起联署支持国家安全立法

马路惊现非洲雄狮

澳门所有大中小学升国旗唱国歌全覆盖

......

　　本系列案例采集所有数据仅供学习研究之用！

　　案例需求说明：所以微博热搜榜是实时更新的，所以一个比较完整的采集要求如下：每3分钟采集微博热搜前49条search list 搜索（忽略第三条中的广告信息），并将结果存入数据库。数据库至少要收录采集时间、排名（rank）、关键词（关键词）、流行度（hot）、类型（type）等字段。完整案例将在后续内容中进行讲解。

　　案例讲解讲解：作为第一个案例，本文通过图文详细讲解每一步，后续案例将重点讲解思路。

　　分享文章:微信公众号文章全自动采集教学

　　一、简介

　　在上周千梦战队“千梦ip恶魔实战训练营”的直播中，我们推荐了一些优秀的同行案例。很多目前处于顶尖水平的优秀球员都拥有非常高的素质和高生产力。内容输出，今天为大家带来微信公众号文章采集教学。

　　微信公众号采集网上有很多方法和软件，有免费的，也有付费的，但是质量参差不齐，功能也相差很大，下载公众号文章只是最基本功能，可以下载同行的所有数据，真的可以帮助我们分析目标对象。

　　2.课程实践

　　1.下载并解压软件

　　获取软件后，先将所有文件解压到桌面文件夹，此版本免安装，直接启用软件即可。

　　2.在PC上打开微信

　　在电脑上下载微信，登录账号同步数据。

　　3.输入采集目标公众号

　　进入对应公众号同时点击历史菜单界面，等待软件**。

　　4. 开始采集

　　软件采集完成后，推荐选择“PDF”格式导出，每个公众号出来后都会变成一个单独的文件夹。

　　信息介绍

　　文件类型：视频+工具

　　文件大小：136MB

　　普通会员：150积分（1元=10积分）

　　VIP会员：免费下载

0

2022-10-06

根据关键词文章采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解密:Python数据采集案例(1)：微博热搜榜采集_长行的博客-程序员秘密

0 个评论

发起人

AI时代内容工厂

解密:Python数据采集案例(1)：微博热搜榜采集_长行的博客-程序员秘密

0 个评论

发起人

相关问题