网页抓取解密(爬虫处理流程及使用方法-爬虫学Python处理方法)
优采云 发布时间: 2022-04-05 11:10网页抓取解密(爬虫处理流程及使用方法-爬虫学Python处理方法)
爬虫处理流程:
获取互联网上的网页到本地
解析网页
网页解析就是将我们需要的有价值的信息和要抓取的新URL从网页中分离出来。
如何解析网页:
处理解析的数据。
一、使用 BeautifulSoup
安装:
pip install beautifulsoup4
安装 lxml:
pip install lxml
使用解析器的优缺点
Python 标准库
BeautifulSoup(标记,“html.parser”)
Python内置标准库,执行速度适中,文档容错能力强
Python 2.7.3 或 3.2.2) 文档容错性差
lxml HTML解析器
BeautifulSoup(标记,“lxml”)
速度快,文档容错能力强
需要安装C语言库
首先,您必须导入 bs4 库并创建一个 BeautifulSoup 对象
from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') #html为下载的网页,lxml为解析器
详情见美汤4.2.0文档
掌握以下三种方法基本就够了:
二、使用 BeautifulSoup 提取网页内容的一些技巧
1、find_all() 方法放一个单独的标签名,比如a,它会提取网页中所有的a标签,这里我们需要确保是我们需要的链接a,一般不是,我们需要添加条件(即标签属性,限制过滤),如果这一层标签没有属性,最好找上一层。
以尴尬事百科为例说明,抢原创笑话。
发现内容都在span标签中。如果写find_all("span"),可以抓取段落的内容,但也包括网页上其他span的内容。这时候,我们看上层标签,
在 select() 方法中编写。
有两种方法可以捕捉令人尴尬的笑话。注意这里只爬取一页内容
如果您在学习过程中遇到任何问题或想获取学习资源,欢迎加入学习交流群
626062078,一起学Python吧!