网页抓取解密(爬虫处理流程及使用方法-爬虫学Python处理方法)

优采云 发布时间: 2022-04-05 11:10

  网页抓取解密(爬虫处理流程及使用方法-爬虫学Python处理方法)

  爬虫处理流程:

  获取互联网上的网页到本地

  解析网页

  网页解析就是将我们需要的有价值的信息和要抓取的新URL从网页中分离出来。

  如何解析网页:

  处理解析的数据。

  一、使用 BeautifulSoup

  安装:

  pip install beautifulsoup4

  安装 lxml:

  pip install lxml

  使用解析器的优缺点

  Python 标准库

  BeautifulSoup(标记,“html.parser”)

  Python内置标准库,执行速度适中,文档容错能力强

  Python 2.7.3 或 3.2.2) 文档容错性差

  lxml HTML解析器

  BeautifulSoup(标记,“lxml”)

  速度快,文档容错能力强

  需要安装C语言库

  首先,您必须导入 bs4 库并创建一个 BeautifulSoup 对象

  from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') #html为下载的网页,lxml为解析器

  详情见美汤4.2.0文档

  掌握以下三种方法基本就够了:

  二、使用 BeautifulSoup 提取网页内容的一些技巧

  1、find_all() 方法放一个单独的标签名,比如a,它会提取网页中所有的a标签,这里我们需要确保是我们需要的链接a,一般不是,我们需要添加条件(即标签属性,限制过滤),如果这一层标签没有属性,最好找上一层。

  以尴尬事百科为例说明,抢原创笑话。

  

  发现内容都在span标签中。如果写find_all("span"),可以抓取段落的内容,但也包括网页上其他span的内容。这时候,我们看上层标签,

  在 select() 方法中编写。

  

  

  有两种方法可以捕捉令人尴尬的笑话。注意这里只爬取一页内容

  如果您在学习过程中遇到任何问题或想获取学习资源,欢迎加入学习交流群

  626062078,一起学Python吧!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线