python抓取动态网页(pyquery库就是jQuery的Python实现库官方文档文档介绍 )

优采云 发布时间: 2022-01-22 09:07

  python抓取动态网页(pyquery库就是jQuery的Python实现库官方文档文档介绍

)

  照片/文字:着迷

  我们是python爬虫,需要正则匹配通过requests抓取内容,或者其他解析库解析内容。可能很多人和我一样用jquery,还是很爽的。 pyquery库是jQuery的Python实现,可以用jQuery语法对HTML文档进行操作和解析,具有很好的易用性和解析速度。

  Beautiful Soup 中虽然可以使用 CSS 选择器,但似乎他的 CSS 选择器并没有想象中的那么强大,PyQuery 更好。因此,我们来说说Python爬虫神器:PyQuery。

  

  PyQuery 库官方文档

  官方文档:

  PyPI:

  Github:

  1、PyQuery初始化内容

  PyQuery 初始化采用三种形式:

  1.1、直接初始化requests返回的html内容

  from pyquery import PyQuery as pq

#初始化为PyQuery对象

doc = pq(html)

print(type(doc))

print(doc)

  1.2、直接读取文件的形式

  1.3、读取URL的形式

  doc = pq(url = 'https://www.toutiao.com')

print(type(doc))

print(doc)

  2、常用 CSS 选择器:

  pyquery 的强大之处在于它使用与 jquery 相同的选项来解析网页节点。

  html = """

Python

大法

"""

  获取id为object-1的标签

  print(doc('#object-1'))

#返回:

#还可以:

print(doc('#container #object-1'))

  获取类为object-1的标签

  print(doc('.object-1'))

#返回:

Python

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线