流程步骤中级选项说明

优采云 发布时间: 2020-08-20 11:37

  流程步骤中级选项说明

  1、打开网页

  该步骤按照设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址须要分别打开执行同样的采集流程,则应当放置在循环的内部,勾选上使用循环,并作为第一个子步骤。

  

  1)页面URL

  页面URL,一般可以从网页浏览器地址栏中复制得到,如:

  2)操作名

  自定义操作名

  3)超时

  在网页加载完成前等待的最大时间。如果网页打开平缓,或者长时间未能打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤。应尽量避开设置过长的超时时间,因为这会影响采集速度

  4)阻止弹出

  用以屏蔽网页弹窗广告,如果打开的网页时常会弄成另外一个广告页面,则可以使用本选项制止广告页面弹出

  5)使用循环

  配合循环步骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。 如果勾选此项,则无需自动设置网页地址,网页地址会手动显示循环设定的网址列表的当前循环项

  6)滚动页面

  个别网页在打开网页后并没有显示所有数据,导致采集异常停止或数据不全,故须要滚动滑鼠滚轮或则拖动页面滚动条到顶部,才会加载没有显示的数据。使用此选项在页面加载完成后向上滚动,滚动形式有向上滚动一屏和直接滚动到顶部两种。一般而言滚动一屏,页面加载疗效会优于直接滚动到顶部,但更花费时间。滚动的时间间隔和次数,应按照所需数据凸显须要多少次来合理设置。

  7)清理缓存

  在优采云中,如果须要切换帐号,可使用清除浏览器缓存,重新设置其他帐号

  8)自定义cookie

  cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据(通常经过加密)。在优采云中,可以通过做一次预登陆获取页面cookie,通过勾选打开网页时使用指定cookie获取登入后的cookie,从而记住登入状态。获取的当前页面cookie,可以通过点击 查看cookie。此外也可以自定义cookie,请参考

  9)重试

  如果网页没有根据成功打开预期页面,例如显示服务器错误(500),访问频度很快等,或者跳转到其他正常打开不应当出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判定的情况满足任意一种出现就会进行重试

  ① 当前网页的网址/文本/XPath,收录/不收录

  如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容,则使用此选项可以判定有没有打开预期页面,需要重试

  ② 最大重试次数

  为了防止无限制重复尝试,请使用本选项限制最大重复尝试的次数,如果重试抵达最大容许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

  ③ 时间间隔

  在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试太有可能是同样的错误,适当等待则可能成功打开预期网页,但应当尽量避开设置过长的等待时间,因为这会影响采集速度

  在重试的过程中还可以配合切换代理IP和浏览器版本,从而防止网站的防采集封锁。在出现某甲条件时进行重试并切换IP,将比设置固定时间切换IP消耗更少的代理IP。详情操作请参考:

  2、点击元素

  该步骤对网页上指定的元素执行键盘左键单击动作,比如点击按键,点击超链接等

  

  1)操作名

  自定义操作名

  2)执行前等待

  对此步骤设置执行前等待,即等待设置的时间后,再进行此步骤

  3)或者出现元素

  或者出现元素,配合执行前等待使用,在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒,或者出现元素设置为某元素。假如第13秒元素加载下来,则优采云会在第10秒尝试进行循环提取操作,假如第8秒元素加载下来,则优采云会在第8秒元素加载下来后立即结束循环的执行前等待,进行循环提取操作。则优采云会在第8秒元素加载下来后立即结束循环的执行前等待,进行循环提取操作。4)使用循环

  配合循环步骤来使用,用以重复点击循环中设置的多个元素,适用于循环单个固定元素,循环固定元素列表,循环不固定元素列表。 如果勾选此项,则无需设置点击的元素,要点击的元素会手动显示循环设定的当前循环项,使用该选项时,应当作为循环步骤的子步骤,但毋须是第一个子步骤

  5)开新标签

  如果点击元素时希望在新的标签页中打开,而不是在当前页打开,请勾选此选项。 一般情况下,在须要循环打开一个页面上的多个超链接时,需要勾选此选项便于保留列表页面,以便点击列表页上的下一个超链接;但是若果是循环点击下一页时,则不要勾选此选项,以在当前页面打开下一页

  6)ajax加载

  ajax,即异步加载,是一种无需重新加载网页能够刷新局部数据的技术,因此流程不能测量到网页加载完成,就不能决定何时该执行下一个步骤。此会按一个默认时间120秒进行等待后再继续往下执行,故引起采集过慢。使用此选项后,流程会按设定的超时时间进行等待,从而继续执行后续流程步骤。本选项须要配合异步加载超时使用。

  ajax超时:等待异步加载完成的时间,在点击元素以后,流程会开始计时,超时时间抵达后,执行下一个流程步骤。时间的长短应依照网页中自己所需数据加载的快慢来设置。简易多1-2秒。本选项须要配合异步加载使用,通常使用本选项时,不能勾选“新标签页中打开”。

  7)页面加速

  有的网页不是ajax网页,勾选此项后,系统会依照网页加载情况,判断要采集的数据是否加载下来了。如果要采集的数据早已加载下来了但网页还处于加载状态,则强制停止加载, 进入下一步骤。因是系统手动判定的,可能会有问题,一般不建议使用此项

  8)定位锚点

  锚点是网页制做中超级链接的一种,又叫命名锚记。命名锚记象一个迅速定位器一样是一种页面内的超级链接,运用相当普遍。在优采云中,对于运用了定位锚点的网页,可通过输入锚点id,迅速定位到页面中的锚点

  9)滚动页面(与打开网页中的滚动作用一样)

  个别网页在加载完成后并没有显示所有数据,需要滚动滑鼠滚轮或则拖动页面滚动条到顶部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到顶部。

  10)重试(与打开网页中的重试作用一样)

  如果网页没有根据成功打开预期页面,例如显示服务器错误(500),访问频度很快等,或者跳转到其他正常执行不应当出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判定的情况任意一种出现就会造成重试

  ① 当前网页的网址/文本/XPath,收录/不收录

  如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容,则使用此选项可以判定没有打开预期页面,需要重试

  ② 最大重试次数

  为了防止无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试抵达最大容许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

  ③ 时间间隔

  在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试太有可能是同样的错误,适当等待则可能成功打开预期网页,但应当尽量避开设置过长的等待时间,因为这会影响采集速度

  3、输入文字

  本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入帐号等。 将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键词

  

  1)输入框

  一般而言显示“Type:INPUT”字样时,则输入框生效。如果显示空白,则输入框无效。但也有的网页输入框并不是“INPUT”,故主要还是要看网页中是否顺利输入文字。部分网页在输入完文字后,还须要点击“确定”后才会触发,往网页中填写文字。

  2)要输入的文本

  自定义要输入的关键词

  3)执行前等待

  对此步骤设置执行前等待,即等待设置的时间后,再进行此步骤

  4)出现元素

  或者出现元素,配合执行前等待使用,在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒,或者出现元素设置为某元素。假如第13秒元素加载下来,则优采云会在第10秒尝试进行循环提取操作,假如第8秒元素加载下来,则优采云会在第8秒元素加载下来后立即结束循环的执行前等待,进行循环提取操作。

  5)使用循环

  配合循环骤来使用,用以循环输入多个关键词,然后执行同样的一套流程。循环输入关键词,应为作为循环步骤的第一个子步骤。 如果勾选此项,则无需自动填写要输入的文本,文本会手动显示循环设定的文本列表的当前循环项

  6)自定义

  自定义,即自定义定位文本输入框。一般情况下,优采云会手动生成定位输入框的XPath,自动生成的定位XPath是正确可用的。如果优采云自动生成的定位输入框的XPath不能满足需求,则需我们自己自定义输入能正确定位到输入框的XPath

  4、提取数据

  本步骤按照提取数据模板的配置,从网页中提取数据,同时还可配置为提取网址,网页标题,或者生成一些数据如当前时间等

  

  1) 抓取模板

  本步骤按照提取数据模板的配置,从网页中提取数据

  ① 字段名称

  给抓取的数据数组取个别称,如新闻标题、新闻正文

  ② 提取到的数据

  从网页上提取到的数据,将会在本列显示所抓取到的示例

  ③ 找不到时怎样处理

  该数组留空,整行留空,或使用某个固定值。

  2)操作名

  可自定义操作的名称

  3)执行前等待

  对此步骤设置执行前等待,即等待设置的时间后,再进行此步骤

  4)或者出现元素

  或者出现元素,配合执行前等待使用,在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒,或者出现元素设置为某元素。假如第13秒元素加载下来,则优采云会在第10秒尝试进行循环提取操作,假如第8秒元素加载下来,则优采云会在第8秒元素加载下来后立即结束循环的执行前等待,进行循环提取操作。

  5)使用循环

  配合循环步骤来使用,用以重复的从循环中设置的多个元素中提取数据,适用于循环单个固定元素,循环固定元素列表,循环不固定元素列表。 如果勾选此项,会从循环所设置的元素中按照抓取规则提取出示例数据,使用该选项时,提取数据步骤应该作为循环步骤的子步骤,但毋须是第一个步骤

  6)添加特殊数组

  可添加当前时间、固定数组、空数组、当前网页信息(页面网址、页面标题......)等特殊数组

  7)自定义处理数组

  

  ①

  

  :自定义数组按键,选中数组后点击此按键,可自定义抓取形式、自定义定位元素形式、格式化数据、自定义数据合并形式

  ②

  

  :删除按键,选中数组后点击此按键,可删掉数组

  ③

  

  :上移和下移按键,选中数组后点击此按键,可上移或下移数组

  ④

  

  :导入和导入抓取配置按键,可点击导入抓取配置按键将配置好的模板保存到想要的位置,下次有须要时,再点击导出抓取配置按键直接,直接导出并使用抓取配置

  5、循环

  本步骤拿来重复执行一系列步骤,根据配置不同,支持多种模式

  

  1)操作名

  自定义操作名

  2)执行前等待

  对此步骤设置执行前等待,即等待设置的时间后,再进行此步骤

  3)或者出现元素

  或者出现元素,配合执行前等待使用,在其中输入元素的XPath可以在出现该元素的时侯结束执行前的等待。例如我们设置执行前等待10秒,或者出现元素设置为某元素。假如第13秒元素加载下来,则优采云会在第10秒尝试进行循环提取操作,假如第8秒元素加载下来,则优采云会在第8秒元素加载下来后立即结束循环的执行前等待,进行循环提取操作。

  4)元素在iframe 、Iframe XPath

  如果循环中设置的元素在Iframe里,请勾选此项,并在旁边的Iframe XPath中填写Iframe XPath;Iframe XPath 元素所在Iframe的路径,只有当勾选“元素在Iframe里”时这个设置才能生效

  5)循环形式

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线