python抓取动态网页(pyquery库就是jQuery的Python实现库官方文档文档介绍 )
优采云 发布时间: 2022-01-22 09:07python抓取动态网页(pyquery库就是jQuery的Python实现库官方文档文档介绍
)
照片/文字:着迷
我们是python爬虫,需要正则匹配通过requests抓取内容,或者其他解析库解析内容。可能很多人和我一样用jquery,还是很爽的。 pyquery库是jQuery的Python实现,可以用jQuery语法对HTML文档进行操作和解析,具有很好的易用性和解析速度。
Beautiful Soup 中虽然可以使用 CSS 选择器,但似乎他的 CSS 选择器并没有想象中的那么强大,PyQuery 更好。因此,我们来说说Python爬虫神器:PyQuery。
PyQuery 库官方文档
官方文档:
PyPI:
Github:
1、PyQuery初始化内容
PyQuery 初始化采用三种形式:
1.1、直接初始化requests返回的html内容
from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)
1.2、直接读取文件的形式
1.3、读取URL的形式
doc = pq(url = 'https://www.toutiao.com')
print(type(doc))
print(doc)
2、常用 CSS 选择器:
pyquery 的强大之处在于它使用与 jquery 相同的选项来解析网页节点。
html = """
Python
大法
好
"""
获取id为object-1的标签
print(doc('#object-1'))
#返回:
好
#还可以:
print(doc('#container #object-1'))
获取类为object-1的标签
print(doc('.object-1'))
#返回:
Python