中第一行的CSSSelector路径匹配所有热搜的关键词了

优采云发布时间: 2021-08-15 02:21

<p>作者：长行

　　时间：2020.05.25

<a id="_4"></a>实现目标

　　本案例通过图文详细介绍网络请求和解析的方法，其目标实现的需求为：通过网络请求，获取微博热搜榜中的前50条热搜的关键词，并将结果打印到控制台中。

<a id="_8"></a>实现过程

　　总体来说，数据采集爬虫的实现过程包括如下步骤：

确定数据所在的Url

执行网页请求并解决请求中出现的问题

解析网页，获取格式化数据

存储数据（当前案例中不需要）

　　下面我们按着以上步骤来依次完成。

<a id="Url_19"></a>确定数据所在Url

　　打开微博热搜榜，即Url为：https://s.weibo.com/top/summary

　　首先，我们需要判断目标数据是存在于页面上，还是通过Ajax加载的。我们可以在浏览器(建议使用Chrome浏览器)中右键，选择“查看网页源代码”。

　　此时浏览器会打开新的页面，其Url（网页地址）前增加了view-source部分，在网页中显示的关键词就是当前网页的源代码。

　　我们使用快捷键Ctrl+F打开搜索框，在网页源代码中搜索热搜榜页面上显示的文字，例如热搜排名第一的”北宋古墓发现过仙桥“，可以发现网页源代码中存在该关键词，这就说明热搜榜是直接加载在页面中，而不是通过Ajax加载的，此时我们只要直接请求网页的Url即可获得热搜榜数据。

<a id="_35"></a>网页请求

　　下面我们使用requests模块执行网页请求，并打印请求的结果，其代码如下：

import requests

if __name__ == "__main__":

response = requests.get("https://s.weibo.com/top/summary")

print(response.content.decode())

</p>

　　在打印的内容中，我们再次通过搜索找到了“发现北宋古墓过仙桥”，说明我们的请求成功获取到了热搜数据，没有任何问题。

　　网页分析

　　再次回到浏览器，右击选择“勾选”打开浏览器控制台（或者直接使用快捷键F12打开控制台）

　　选择元素选择工具。

　　在元素选择模式下（元素选择工具的小箭头为蓝色），点击我们需要的信息采集。

　　此时浏览器控制台会定位到目标信息所在的标签。

　　我们右击标签，选择“Copy”，然后选择“Copy Selector”复制标签的CSS Selector路径。此路径用于定位当前标签。比如第一个热搜关键词的标签的CSS Selector是：

　　#pl_top_realtimehot > table > tbody > tr:nth-child(2) > td.td-02 > a

　　#pl_top_realtimehot 代表id为pl_top_realtimehot的标签，即下图中第一行的div标签；> table代表当前标签下一层的table标签，即在下图中的第二行； tr:nth -child(2)表示当前标签下的第二个tr标签，即下图中选中的tr标签。

　　通过观察网络结构，我们可以发现每个热搜在tbody标签下都是一个独立的tr标签；因此，要同时获取不同热搜的关键词，我们只需要不再限制指定的 tr 标签就足够了，即 tr:nth-child(2) in:nth-child( 2)可以在CSS选择器路径中删除。

　　#pl_top_realtimehot > table > tbody > tr > td.td-02 > a

　　在浏览器控制台的 Elements 选项卡中，使用 Ctrl+F 快捷键打开搜索框，在搜索框中搜索修改后的 CSS Selector 路径。可以得到51个结果，说明可以同时使用修改后的CSS Selector 匹配所有热搜的关键词。

　　下面我们使用Python的第三方模块-BeautifulSoup模块（pip安装命令：pip install BeautifulSoup4）来实现分析，包括请求代码如下：

　　import requests

from bs4 import BeautifulSoup

if __name__ == "__main__":

response = requests.get("https://s.weibo.com/top/summary")

bs = BeautifulSoup(response.content.decode(), 'lxml')

for keyword_label in bs.select("#pl_top_realtimehot > table > tbody > tr > td.td-02 > a"):

print(keyword_label.text)

　　运行结果已经可以将所有的热门搜索打印到控制台，实现当前的需求。

　　10个关键词把握2020中国经济走势

北宋古墓发现过仙桥

香港各界发起联署支持国家安全立法

马路惊现非洲雄狮

澳门所有大中小学升国旗唱国歌全覆盖

......

　　本系列案例采集的所有数据仅供学习和研究使用！

　　案例要求说明：所以微博热搜榜是实时更新的，所以一个比较完整的采集需求如下：每3分钟采集一次微博热搜前49个热搜list（忽略第3条的广告信息），并将结果存入数据库。数据库至少应该收录采集Time、rank(rank)、关键词(keyword)、hot(hot)、type(type)等字段。完整案例将在后续内容中说明。

　　案例讲解：本文作为第一个案例，通过图片和文字详细讲解每一步，后续案例将重点讲解思路。

0

2021-08-15

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

中第一行的CSSSelector路径匹配所有热搜的关键词了

0 个评论

发起人

AI时代内容工厂

中第一行的CSSSelector路径匹配所有热搜的关键词了

0 个评论

发起人

相关问题