抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例 )

优采云发布时间: 2021-09-30 10:38

　　抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例

)

　　2.1.2、目的2.1.3、目标类型三、启动爬虫本章是对爬虫程序的介绍，因此我们只需要安装几个Python库，如下所示：

　　 requests | pip install requests

bs4 | pip install bs4

lxml | pip install lxml

　　发送请求

　　当我们每天访问百度时，它实际上是一个请求。此请求的功能是使用代码模拟我们人类向网站发送请求。首先，我们需要导入请求库，如下所示：

　　import requests # 导入requests库

　　导入后，我们可以使用请求库中的方法。例如，我们需要在我的CSDN中获得一个文章

　　r = requests.get('https://www.jianshu.com')

　　现在，我们有一个名为：R的响应对象，也就是说，当我们访问网站时，网站肯定会给我们提供数据。一些参数如下：

　　r.status_code # 查看访问状态码 200为ok 是成功的

200

# 然后获取网页源码

r.text # 就是整个网页的html代码

　　对于HTML源代码，通常使用常规匹配数据，但这太麻烦了。我们选择一个更简单的Python库来解析HTML

　　就这样

　　from bs4 import BeautifulSoup

　　拿一个案例来查找关于title标签的所有信息

　　#!/usr/bin/env python

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

html = '网页源码'

soup = BeautifulSoup(html, 'lxml')

title = soup.find_all('title')

print(title)

>>> [The Dormouse's story]

　　有一个lxml，它是一个lxml HTML解析器，安装在

　　说一些美的重要功能

　　#!/usr/bin/env python

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

html = '网页源码'

soup = BeautifulSoup(html, 'lxml')

soup.find_all('a') # 获取整个网页所有a标签

soup.find_all('p') # 获取整个网页所有p标签

soup.find('p') # 获取网页第一个p标签

soup.select('#stro p') # 这个是按照css选择器获取元素的和css几乎相同

0

2021-09-30

抓取网页音频

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例 )

0 个评论

发起人