XPath入门教程:优采云采集数据常见使用场景工具
优采云 发布时间: 2021-07-31 19:42XPath入门教程:优采云采集数据常见使用场景工具
一、常见使用场景
优采云采集数据在日常使用中,偶尔会出现一些特殊情况。比如某个采集步骤由于网页或者优采云识别问题导致定位有偏差,导致自动生成的XPath有问题,采集出错了。这时候就需要手工编写XPath来定位我们要设置的步骤,而优采云内置了XPath工具,可以帮你写一些简单的XPath定位(除了打开网页的步骤) ,没有XPath工具,其他步骤都可以)。
二、XPath 工具位置
XPath 工具可以在两个地方打开。
一个入口是:登录后可以直接在软件首页的工具箱中打开。
另一个入口是:流程中步骤的“自定义”按钮,点击进入
点击“自定义”按钮后,点击“不懂XPath,试试XPath工具”
三、XPath 工具界面介绍
打开XPath工具,工具界面主要分为五个部分:
左上角是填写网址
左中是浏览器
左下为页面的HTML源代码(由于XPath工具源代码层次不清,建议使用火狐插件Firebug和FirePath查看源代码。火狐版54或更早版本支持这两个插件,Chrome浏览器有一个类似的插件XPath Helper。以下是XPath的入门教程,新用户请稍后学习:)
右上角是定位参数(工具会根据你填写的参数生成XPath)
右下方是点击Generate as required后匹配的XPath
1、来看看定位参数
1)Element 标签名:火狐中所有蓝色字体为元素标签名,如下:span、a、h、br等,具体参数名请到火狐查看代码行您要定位的前标签是什么?就写在这里吧。您可以在 Firefox 中清楚地看到它:
2)元素位置:默认填1。这个位置意味着第一。一般用的比较少,因为Firefox中自动生成的XPath很多都用到了位置定位。最好使用 Firefox 来使用它。快速生成;
3)Element ID属性值、元素名称属性值、元素类属性值:属性值是一行源码中尖括号括起来的参数,会有很多,这里的三个属性值大多数网页通用的属性值只有三种,但是也可以改变它们,例如:
a 标签下有 class、href 和 target 三个属性。如果要通过属性类定位,只需将class=后面引号内的参数复制粘贴到网格中,点击生成,就会自动生成类属性值定位的XPath路径。
如果你要定位的属性不是这三个,比如target,也可以直接把target=后面引号中的属性值复制进去,放到一个属性中。
此时,没有匹配项。需要将生成的XPath中的属性改为target,也就是将图中@和=之间的属性改为:
<p>4)Element text: Firefox 中全黑字体。一般会显示在网页上,我们可以直接看到字体。如果要填这个框,必须填满整个文本,少一个空格标点,全角和半角不一致会导致定位失败,但是如果是纯文本就可以了;