关键词文章采集(如何使用XPath首先介绍怎么获取XPath?图怎么使用 )
优采云 发布时间: 2021-10-25 19:05关键词文章采集(如何使用XPath首先介绍怎么获取XPath?图怎么使用
)
什么是 XPath?XPath 是一种 xml 路径语言。不懂也没关系,可以去百度百科科普一下;而在SEO中的应用就是数据采集等等,xpath有点像正则表达式,可以用自己的语言来提取想法,只是内容而已。至于两者的对比,转宇个人认为各有千秋。这不是废话吗?哈哈,下面进入正题,看看如何使用XPath。首先介绍一下如何获取XPath。
打开谷歌浏览器,右键review元素进入如下界面,右键html,会有一个复制的XPath,如下图:
当然,手动也可以,这里简单提一下图中xpath的学习笔记,然后直接上图,并结合实例,使用XPath快速获取文章的标题:
#encoding=utf-8
import requests
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
url='https://bigwayseo.com/'
a=requests.get(url).content
html=etree.HTML(a) #转换成xpath识别的对象
b=html.xpath('//*/header/h3/a/text()') #这个路径可以打开浏览器审查元素,然后对着html右键有一个copy xpath
#//*[@id="post-502"]/header/h3/a
for i in b:
print i
#xpath学习笔记
# //定位根节点
# /往下层找
# /text()提取文本内容
# /@xxxxx企图属性内容
# xpath特殊用法
# 1以相同的字符开头starts-with(@属性名称,属性字符相同部分)
# 2标签套标签string(.)