关键词文章采集(如何使用XPath首先介绍怎么获取XPath？图怎么使用 )

优采云发布时间: 2021-10-25 19:05

　　关键词文章采集(如何使用XPath首先介绍怎么获取XPath？图怎么使用

)

　　什么是 XPath？XPath 是一种 xml 路径语言。不懂也没关系，可以去百度百科科普一下；而在SEO中的应用就是数据采集等等，xpath有点像正则表达式，可以用自己的语言来提取想法，只是内容而已。至于两者的对比，转宇个人认为各有千秋。这不是废话吗？哈哈，下面进入正题，看看如何使用XPath。首先介绍一下如何获取XPath。

　　打开谷歌浏览器，右键review元素进入如下界面，右键html，会有一个复制的XPath，如下图：

　　当然，手动也可以，这里简单提一下图中xpath的学习笔记，然后直接上图，并结合实例，使用XPath快速获取文章的标题：

#encoding=utf-8

import requests

from lxml import etree

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

url='https://bigwayseo.com/'

a=requests.get(url).content

html=etree.HTML(a) #转换成xpath识别的对象

b=html.xpath('//*/header/h3/a/text()') #这个路径可以打开浏览器审查元素，然后对着html右键有一个copy xpath

#//*[@id="post-502"]/header/h3/a

for i in b:

print i

#xpath学习笔记

# //定位根节点

# /往下层找

# /text()提取文本内容

# /@xxxxx企图属性内容

# xpath特殊用法

# 1以相同的字符开头starts-with(@属性名称，属性字符相同部分)

# 2标签套标签string(.)

0

2021-10-25

关键词文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词文章采集(如何使用XPath首先介绍怎么获取XPath？图怎么使用 )

0 个评论

发起人

AI时代内容工厂

关键词文章采集(如何使用XPath首先介绍怎么获取XPath？图怎么使用 )

0 个评论

发起人

相关问题