抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例 )
优采云 发布时间: 2021-09-30 10:38抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例
)
2.1.2、目的2.1.3、目标类型三、启动爬虫本章是对爬虫程序的介绍,因此我们只需要安装几个Python库,如下所示:
requests | pip install requests
bs4 | pip install bs4
lxml | pip install lxml
发送请求
当我们每天访问百度时,它实际上是一个请求。此请求的功能是使用代码模拟我们人类向网站发送请求。首先,我们需要导入请求库,如下所示:
import requests # 导入requests库
导入后,我们可以使用请求库中的方法。例如,我们需要在我的CSDN中获得一个文章
r = requests.get('https://www.jianshu.com')
现在,我们有一个名为:R的响应对象,也就是说,当我们访问网站时,网站肯定会给我们提供数据。一些参数如下:
r.status_code # 查看访问状态码 200为ok 是成功的
200
# 然后获取网页源码
r.text # 就是整个网页的html代码
对于HTML源代码,通常使用常规匹配数据,但这太麻烦了。我们选择一个更简单的Python库来解析HTML
就这样
from bs4 import BeautifulSoup
拿一个案例来查找关于title标签的所有信息
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html = '网页源码'
soup = BeautifulSoup(html, 'lxml')
title = soup.find_all('title')
print(title)
>>> [The Dormouse's story]
有一个lxml,它是一个lxml HTML解析器,安装在
说一些美的重要功能
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html = '网页源码'
soup = BeautifulSoup(html, 'lxml')
soup.find_all('a') # 获取整个网页所有a标签
soup.find_all('p') # 获取整个网页所有p标签
soup.find('p') # 获取网页第一个p标签
soup.select('#stro p') # 这个是按照css选择器获取元素的 和css几乎相同