优采云自动文章采集 sign failed11(优采云是一款网页爬虫工具,可以不用编写代码)

优采云 发布时间: 2021-12-14 08:35

  优采云自动文章采集 sign failed11(优采云是一款网页爬虫工具,可以不用编写代码)

  优采云是一款无需编写代码即可快速抓取网络数据的网络爬虫工具。

  其基本操作可以在其官网教程中查看。主要是它的翻页和登录验证码和xpath操作。

  特殊翻页 数字翻页

  制作采集规则时,页面上没有“下一页”等翻页按钮,而是一行页码,例如“1”、“2”、“3”、“4” ,“5”...

  数字翻页如何处理?

  解决方案:

  找到一个 xpath,以便下一页始终位于当前页面上(未分页的页面除外)。

  示例网址:

  常用函数:follow-sibling::*

  例如://span[@class="page_curl"]/follow-sibling=a[1]

  其中,首先找到数字1所在的位置为span,它的class为page_url,这样就找到了数字1所在的span。然后使用following-sibling查找其兄弟元素定位下一页,找到下一页,也就是a标签的第二页所在的位置,因为同级的所有后续元素的页码都是a 标签,所以使用 a[1] 表示第一页之后的第一个 a 标签。

  “加载更多”翻页表单

  应用情况:

  如果采集的网页中有“加载更多”或“再显示20个”等按钮,点击这些按钮后,采集的数据就会全部显示出来。

  例如,在以下情况下,您需要单击“加载更多内容”,每次单击将显示 20 多条数据:

  

  解决方案:

  按照正常操作创建一个翻页循环,然后将循环翻页步骤拖到循环提取数据步骤之前。所有翻页完成后,进行循环数据提取步骤,否则会出现大量重复数据。

  循环翻页的点击按钮一般是ajax加载,即点击翻页高级选项需要勾选ajax,并设置超时时间(时间长短根据数据加载速度设置),不要检查新标签。

  比如网页,习惯上先循环点击“加载更多内容”,如下左图。如果这样执行采集数据,会得到前20个数据采集的循环。

  在这种情况下,我们需要在循环翻转下方拖动循环提取数据,如右图,这样会先添加所有数据,然后一起进行数据提取。请注意,有时如果数据过多,它会无限制地加载数据。这时候可以对翻页的循环次数进行限制。另外需要修改下图循环提取数据的xpath,否则只能提取前20条数据。

  

  

  

  某些页面出现重复循环现象

  适用场景:重复网页中几页的数据采集

  现象:

  采集 结果重复。翻阅资料,发现网页采集的部分资料页面有重复。例如,重复采集 一页或两页数据。

  原因分析:

  网页中有上一页按钮和下一页按钮,xpath定位不准确,上一页按钮会定位在某个页面,导致部分页面数据重复采集

  解决方案:

  修改xpath,使得在当前页面(最后一页除外),只能定位到下一页按钮

  例如:当某些网页在某一页后进行翻页时,其xpath会同时定位上一页和下一页按钮。这时候就需要修改它的xpath,让它只能定位到下一页。, 如原来的xpath://a[@class="next"],观察其源码,需要修改为://a[@class="next" and text()="next page" ]

  最后一页死循环现象

  应用情况:

  对于采集的网页,明明最后一页的数据已经采集到了,但是采集的最后一页的数据却不断重复,没有停止采集。

  或者在不翻页的情况下循环点击下一页,某一页的数据总是采集。

  原因分析:

  xpath定位不准确,“下一页”按钮可以定位到最后一页,无法结束翻页的循环。

  解决方案:

  修改xpath,使当前页为最后一页时无法定位“下一页”按钮,但当前页为最后一页时可以定位到“下一页”(观察当前页为最后一页时)上一页而不是下一页的最后一个位置xpath,然后修改它的xpath)

  其他翻页现象

  1.输入页码,点击“跳转”或“确定”按钮翻页

  示例 网站:

  点击输入编号页码输入框,选择输入文字,点击确定,然后在此过程中拖入一个循环框,将输入的文字拖入循环框,设置为从循环中选择内容,然后将循环内容设置为 1、2,页码 3 就可以了。

  2.将翻页周期转换为URL周期

  这样就可以在输入网址的时候直接输入多个网址,用换行符包裹起来,然后执行采集数据。

  3.翻几页后,直接跳转到下几页(missing data-几页的缺失数据不是采集)

  适用场景:

  由于点击翻页,有些页面不是采集。比如翻了几页后,直接跳到下几页。

  示例网址:

  解决方案:

  找到一个 xpath,以便下一页始终位于当前页面上(未分页的页面除外)。

  示例 网站:

  上述方法不仅可以解决一些网站无法翻页或翻页后容易出现采集中断的问题,还可以避免网站的反采集措施在某种程度上。

  登录和验证码 Cookie 登录

  输入账号密码登录后,打开网页步骤设置获取cookie。这时候就可以删除之前输入账号密码的步骤了。如果想用当前账号新建任务,也可以复制打开网页的网址新建任务。注意:Cookie 有生命周期;如果您想更改您的帐户,请在打开网页时将缓存设置为清除。

  验证码登录:设置执行前等待的方法

  适用场景:

  在登录页面输入用户名和密码后,需要验证码识别才能正常登录。

  重点验证通过拖动滑块,点击选择一些图片或文字,拼图验证,

  以及其他验证码识别控件无法自动识别的验证码类型。

  对于这种需要验证码登录的场景,可以通过设置执行前等待来完成验证码识别。

  方法:输入账号密码后,点击登录步骤,设置执行前的等待时间,如15s。当输入采集数据时,到了输入验证码的时候,系统会留15s给用户输入验证码,15s后会自动执行登录步骤。注意:仅适用于本地采集,不适用于云采集。

  验证码登录:控制识别方法

  对于需要输入验证码的情况,也可以设置控件识别。做法是:

  如下图,输入账号密码后,先点击验证码图片,再点击验证码输入框,然后根据提示输入验证码识别错误和正确的配置信息。

  

  

  内嵌框架

  什么是 Iframe 框架:

  一些 网站 登录框实际上是 iframe 登录框。iframe 是 html 标签,它创建了一个收录另一个文档的内联框架(即内联框架),这意味着一个网页中的一个网页。有时无法定位输入框,因为网页使用了 iframe 框架。

  如何检查网页是否使用 iframe 框架:

  使用火狐查看。看一下具体的网址。例如,天猫的登录页面使用iframe登录框架。

  1、在火狐浏览器中打开网页

  2、将鼠标移至天猫登录框,右击选择“本框”>>“在新标签中打开框”

  优采云iframe框架的处理:

  优采云 一般可以自动识别网页中的iframe frame,生成对应iframe frame的XPath。如果遇到无法生成的东西,需要先在浏览器中定位frame,然后在优采云中填写iframe frame的XPath。软件支持一层iframe框架。如果网站中有多层框架,则应先去除多余的框架。或者将浏览器中获取到的frame地址复制到优采云中。

  XPath

  XPath 简介

  XPath 是专门为 xml 设计的。它是一种在复杂结构化数据中查找信息的语言。简单来说就是使用路径表达式来查找我们需要的数据位置。

  查看/自动生成xpath方法

  1、通过Firefox中的firebug和firepath插件生成/查看XPath

  注意:Firefox 浏览器的版本必须为 55 或更低。如果版本太高,firebug 和 firepath 插件可能不可用。安装过程中和安装后必须禁止浏览器的自动更新。

  火狐浏览器54版下载地址:

  64 位 Firefox 54:

  32 位 Firefox 54:

  其他版本下载地址:

  在火狐浏览器菜单中的附件管理器中搜索firebug和firepath插件进行安装,安装后需要重启才能使用。

  2、通过优采云采集器生成/查看XPath

  html有一套XPath引擎,可以直接使用XPath准确地查找和定位网页中的数据,从而提取数据。在优采云中配置规则时,会自动生成定位数据的XPath

  在优采云规则配置中,除了没有XPath打开网页的步骤外,其他步骤都涉及XPath定位

  找到xpath的方式,如下图:

  

  

  XPath节点

  在 XPath 中,一切都是一个节点。节点有七种类型:元素、属性、文本、命名空间、处理指令、注释、文档(根)节点。

  XPath 语法

  XPath 轴:定义当前节点与其他节点的关系。

  XPath 语法:使用路径表达式来选择 html 文档中的节点或节点集。

  谓词:路径表达式的附加条件,进一步过滤节点,嵌入在 [] 中。在使用谓词时,我们经常使用一些 XPath 函数。

  

  

  

  应用-修改提取的数据字段xpath

  适用于调整XPath,解决采集数据中的数据泄露和数据错位问题。

  应用场景:

  1.网页上有信息,采集的结果中有些字段没有被采集到达。

  2.采集 导致部分字段数据错位,采集的实际内容与字段名不符。

  原因分析:

  网页结构不一致,导致原来的xpath在某些页面上无法正确定位到需要的数据。

  解决方案:

  修改问题字段的xpath,使其能够在所有页面上准确定位所需数据。

  应用-修改循环列表xpath

  适用于修改循环列表的XPath,解决部分数据泄露和冗余项的问题。

  应用场景:

  点击生成的循环列表没有收录所有需要的数据,缺少一些循环项。

  原因分析:

  网页的特殊结构导致原创xpath无法匹配页面上所有需要的数据。

  解决方案:

  修改循环列表的xpath,使其能够匹配页面上所有需要的数据,消除多余的循环项。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线