网页抓取解密(爬虫处理流程及使用方法-爬虫学Python处理方法)

优采云发布时间: 2022-04-05 11:10

　　爬虫处理流程：

　　获取互联网上的网页到本地

　　解析网页

　　网页解析就是将我们需要的有价值的信息和要抓取的新URL从网页中分离出来。

　　如何解析网页：

　　处理解析的数据。

　　一、使用 BeautifulSoup

　　安装：

　　pip install beautifulsoup4

　　安装 lxml：

　　pip install lxml

　　使用解析器的优缺点

　　Python 标准库

　　BeautifulSoup（标记，“html.parser”）

　　Python内置标准库，执行速度适中，文档容错能力强

　　Python 2.7.3 或 3.2.2) 文档容错性差

　　lxml HTML解析器

　　BeautifulSoup（标记，“lxml”）

　　速度快，文档容错能力强

　　需要安装C语言库

　　首先，您必须导入 bs4 库并创建一个 BeautifulSoup 对象

　　from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') #html为下载的网页，lxml为解析器

　　详情见美汤4.2.0文档

　　掌握以下三种方法基本就够了：

　　二、使用 BeautifulSoup 提取网页内容的一些技巧

　　1、find_all() 方法放一个单独的标签名，比如a，它会提取网页中所有的a标签，这里我们需要确保是我们需要的链接a，一般不是，我们需要添加条件（即标签属性，限制过滤），如果这一层标签没有属性，最好找上一层。

　　以尴尬事百科为例说明，抢原创笑话。

　　发现内容都在span标签中。如果写find_all("span")，可以抓取段落的内容，但也包括网页上其他span的内容。这时候，我们看上层标签，

　　在 select() 方法中编写。

　　有两种方法可以捕捉令人尴尬的笑话。注意这里只爬取一页内容

　　如果您在学习过程中遇到任何问题或想获取学习资源，欢迎加入学习交流群

　　626062078，一起学Python吧！

0

2022-04-05

网页抓取解密

0 个评论

要回复文章请先登录或注册