抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例 )

优采云 发布时间: 2021-09-30 10:38

  抓取网页音频(requestslxml案例查找所有关于title标签其中的有个案例

)

  2.1.2、目的2.1.3、目标类型三、启动爬虫本章是对爬虫程序的介绍,因此我们只需要安装几个Python库,如下所示:

   requests | pip install requests

bs4 | pip install bs4

lxml | pip install lxml

  发送请求

  当我们每天访问百度时,它实际上是一个请求。此请求的功能是使用代码模拟我们人类向网站发送请求。首先,我们需要导入请求库,如下所示:

  import requests # 导入requests库

  导入后,我们可以使用请求库中的方法。例如,我们需要在我的CSDN中获得一个文章

  r = requests.get('https://www.jianshu.com')

  现在,我们有一个名为:R的响应对象,也就是说,当我们访问网站时,网站肯定会给我们提供数据。一些参数如下:

  r.status_code # 查看访问状态码 200为ok 是成功的

200

# 然后获取网页源码

r.text # 就是整个网页的html代码

  对于HTML源代码,通常使用常规匹配数据,但这太麻烦了。我们选择一个更简单的Python库来解析HTML

  就这样

  from bs4 import BeautifulSoup

  拿一个案例来查找关于title标签的所有信息

  #!/usr/bin/env python

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

html = '网页源码'

soup = BeautifulSoup(html, 'lxml')

title = soup.find_all('title')

print(title)

>>> [The Dormouse's story]

  有一个lxml,它是一个lxml HTML解析器,安装在

  说一些美的重要功能

  #!/usr/bin/env python

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

html = '网页源码'

soup = BeautifulSoup(html, 'lxml')

soup.find_all('a') # 获取整个网页所有a标签

soup.find_all('p') # 获取整个网页所有p标签

soup.find('p') # 获取网页第一个p标签

soup.select('#stro p') # 这个是按照css选择器获取元素的 和css几乎相同

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线