python网页数据抓取( Python中解析网页内容的三种方法-文章目录的价值)

优采云 发布时间: 2022-04-20 03:33

  python网页数据抓取(

Python中解析网页内容的三种方法-文章目录的价值)

  

  文章目录

  爬行动物的价值

  正则表达式

  请求-html

  美丽汤

  lxml 的 XPath

  爬行动物的价值

  常见的数据获取方式有三种:自有数据、购买数据和爬取数据。用 Python 编写爬虫工具现在很普遍。每个人都希望写一个程序来采集互联网上的一些信息,用于数据分析或其他事情。我们知道爬虫的原理无非就是把目标URL的内容下载下来存储在内存中。这时候它的内容其实就是一堆HTML,然后根据自己的思路对HTML内容进行解析提取出想要的数据,所以今天我们主要讲四种Python解析网页HTML内容的方法各有优势,适合不同场合使用

  

  正则表达式(regular expressions)描述了一个字符串匹配模式(pattern),可以用来检查一个字符串是否收录某个子串,替换匹配的子串或者从一个匹配某个子串的字符串中提取。条件子串等

  正则的优点是写起来麻烦,难懂,但是匹配效率很高。但是,在有太多现成的HTML内容解析库之后,我个人不建议手动使用正则匹配内容,既费时又费力。.

  想学习可以参考:正规传送门

  请求-html

  这个库实际上是我个人最喜欢的库。作者是编写 requests 库的网红程序员 Kenneth Reitz。他在requests的基础上增加了对html内容的分析,成为requests-html的库。.

  之所以喜欢使用requests-html来解析内容,是因为作者帮我高度封装,甚至请求返回的内容的编码格式转换都是自动完成的,完全可以让我的代码逻辑简单和直接,更专注于解析工作。本身。

  安装使用:pip install requests-html

  

  美丽汤

  著名的 BeautifulSoup 库已经推出几年了。它是 Pyhton 的 HTML 解析库中的重量级库。其实我对它的权重的评价是相对臃肿,庞大且完整,依赖于Python,所以适用场景有限。

  BeautifulSoup 解析内容也需要将请求和解析分开。从代码清晰的角度来看,还可以,但是在做复杂解析的时候代码有点麻烦。一般来说可以用,看个人喜好。

  安装使用:pip install beautifulsoup4

  

  lxml 的 XPath

  lxml 库支持 HTML 和 XML 解析,并支持 XPath 解析。解析效率相当高,但是我们需要熟悉它的一些规则语法才能使用它,比如下面的规则。

  安装使用:pip install lxml

  

  

  学习经历路径:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线