XPath入门教程:优采云采集数据常见使用场景工具

优采云 发布时间: 2021-07-31 19:42

  XPath入门教程:优采云采集数据常见使用场景工具

  一、常见使用场景

  优采云采集数据在日常使用中,偶尔会出现一些特殊情况。比如某个采集步骤由于网页或者优采云识别问题导致定位有偏差,导致自动生成的XPath有问题,采集出错了。这时候就需要手工编写XPath来定位我们要设置的步骤,而优采云内置了XPath工具,可以帮你写一些简单的XPath定位(除了打开网页的步骤) ,没有XPath工具,其他步骤都可以)。

  二、XPath 工具位置

  XPath 工具可以在两个地方打开。

  一个入口是:登录后可以直接在软件首页的工具箱中打开。

  

  

  另一个入口是:流程中步骤的“自定义”按钮,点击进入

  

  点击“自定义”按钮后,点击“不懂XPath,试试XPath工具”

  

  三、XPath 工具界面介绍

  打开XPath工具,工具界面主要分为五个部分:

  

  左上角是填写网址

  左中是浏览器

  左下为页面的HTML源代码(由于XPath工具源代码层次不清,建议使用火狐插件Firebug和FirePath查看源代码。火狐版54或更早版本支持这两个插件,Chrome浏览器有一个类似的插件XPath Helper。以下是XPath的入门教程,新用户请稍后学习:)

  右上角是定位参数(工具会根据你填写的参数生成XPath)

  右下方是点击Generate as required后匹配的XPath

  1、来看看定位参数

  

  1)Element 标签名:火狐中所有蓝色字体为元素标签名,如下:span、a、h、br等,具体参数名请到火狐查看代码行您要定位的前标签是什么?就写在这里吧。您可以在 Firefox 中清楚地看到它:

  

  2)元素位置:默认填1。这个位置意味着第一。一般用的比较少,因为Firefox中自动生成的XPath很多都用到了位置定位。最好使用 Firefox 来使用它。快速生成;

  3)Element ID属性值、元素名称属性值、元素类属性值:属性值是一行源码中尖括号括起来的参数,会有很多,这里的三个属性值大多数网页通用的属性值只有三种,但是也可以改变它们,例如:

  

  a 标签下有 class、href 和 target 三个属性。如果要通过属性类定位,只需将class=后面引号内的参数复制粘贴到网格中,点击生成,就会自动生成类属性值定位的XPath路径。

  

  如果你要定位的属性不是这三个,比如target,也可以直接把target=后面引号中的属性值复制进去,放到一个属性中。

  

  此时,没有匹配项。需要将生成的XPath中的属性改为target,也就是将图中@和=之间的属性改为:

  

<p>4)Element text: Firefox 中全黑字体。一般会显示在网页上,我们可以直接看到字体。如果要填这个框,必须填满整个文本,少一个空格标点,全角和半角不一致会导致定位失败,但是如果是纯文本就可以了;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线