在线抓取网页(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置 )

优采云 发布时间: 2021-09-18 15:09

  在线抓取网页(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置

)

  jisoke Gooseek的网页捕获软件可以连接在线编码平台。如果捕获的网站需要输入验证码,验证码将转发到在线编码平台,Gooseek将自动将编码平台返回的结果输入网页,完成编码过程。吉索克探索者V5.1.0此版本支持以下功能

  注意:crontab.xml文件是DS打印机用于自动和定期安排多个爬虫程序窗口的指令文件。有关详细信息,请参阅谷歌搜索者对此文件的解释。下面将详细说明为编码平台的自动登录和对接配置的参数

  目录

  一,。自动登录和自动编码所需的参数

  请注意:此版本的Gooseek无法自动识别登录过程是否需要编码。如果使用以下配置参数,则必须对登录过程进行编码。如果您只需要自动登录,请使用专用的登录crontab命令

  下面是crontab.xml文件中相关说明的示例。Zip(单击下载示例):

  

  二,。参数描述

  其他通用参数请参考如何通过crontab程序实现周期性增量采集数据。下面主要解释几个特殊参数

  

  例如,在where to log in页面上,您可以看到上面的界面。此参数是URL%3A%2F%2F%2F

  这是您需要在上图中输入的帐户名

  这是您需要在上图中输入的密码

  这是一个标准的XPath。您可以使用MS服务器打开内容定位功能。单击浏览器中的帐户输入框,在“网页结构”窗口中找到此输入框。单击“ShowXPath”按钮查看用于定位此输入框的XPath表达式,如下所示

   /html/body/div[position()=2]/div[position()=3]/div[position()=2]/div[position()=1]/form/div[position()=2]/div[position()=1]/input

  为了准确定位,您可以使用定位标志,即网页中的@class和@ID。对于网站,使用定位标志后的XPath将是:

   //div[@class='field-login']/div[contains(@class, 'username-field')]/input

  可以看出,它缩短了很多,适应性也得到了很大的提高

  类似于在帐户输入框中查找XPath

  使用类似的方法,可以获得XPath表达式://div[@id='captcha']//p/img[@id='vcodeimg']

  如果手动输入验证码,请在此输入框中输入字母数字。此参数也是一个XPath

  登录页面通常会显示一个引人注目的“登录”按钮,该按钮位于XPath。在网页中,它不一定是按钮,也可能是div,只要它用于单击

  通常,如果登录成功,将显示一个网页,上面会显示“欢迎XXX”,这可以作为成功登录的标志

  请自行开户并充值,并在这两个参数中配置账号和密码

  三,。完全爬虫调度

  上面的crontab.xml只有一个登录步骤。通常,在网站登录后,只要不关闭浏览器并打开其他网页,就不需要登录。因此,当使用自动登录时,有两个选项

  如果您已经登录,DS将根据loginmark标志直接跳过登录过程

  四,。处理记录和虚假电话上诉

  查找捕获结果文件夹,该文件夹通常位于datasnaperworks目录下。此目录的父目录可以是“文件”->在DS打印机的菜单上;根据“存储路径”,取数结果按主题名称存储,上面示例的主题名称为testcase_uuAutoLogin_uu步骤,您可以找到此文件夹。打开后,您可以看到一个子目录captcha。完整的目录结构如下图所示

  

  1660287210文件夹是特定时间编码的停靠记录。进入此文件夹可查看原创验证代码图和编码平台返回的结果。如果编码平台的错误率非常高,您可以使用此记录信息联系编码平台,并要求对方提高服务质量

  五,。确保信息安全

  如上所述,此配置文件存储在用户的本地计算机上,而不是Gooseek ECs上,因此不会透露上述帐户和密码

  如有疑问,或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线