在线抓取网页(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置 )
优采云 发布时间: 2021-09-18 15:09在线抓取网页(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置
)
jisoke Gooseek的网页捕获软件可以连接在线编码平台。如果捕获的网站需要输入验证码,验证码将转发到在线编码平台,Gooseek将自动将编码平台返回的结果输入网页,完成编码过程。吉索克探索者V5.1.0此版本支持以下功能
注意:crontab.xml文件是DS打印机用于自动和定期安排多个爬虫程序窗口的指令文件。有关详细信息,请参阅谷歌搜索者对此文件的解释。下面将详细说明为编码平台的自动登录和对接配置的参数
目录
一,。自动登录和自动编码所需的参数
请注意:此版本的Gooseek无法自动识别登录过程是否需要编码。如果使用以下配置参数,则必须对登录过程进行编码。如果您只需要自动登录,请使用专用的登录crontab命令
下面是crontab.xml文件中相关说明的示例。Zip(单击下载示例):
二,。参数描述
其他通用参数请参考如何通过crontab程序实现周期性增量采集数据。下面主要解释几个特殊参数
例如,在where to log in页面上,您可以看到上面的界面。此参数是URL%3A%2F%2F%2F
这是您需要在上图中输入的帐户名
这是您需要在上图中输入的密码
这是一个标准的XPath。您可以使用MS服务器打开内容定位功能。单击浏览器中的帐户输入框,在“网页结构”窗口中找到此输入框。单击“ShowXPath”按钮查看用于定位此输入框的XPath表达式,如下所示
/html/body/div[position()=2]/div[position()=3]/div[position()=2]/div[position()=1]/form/div[position()=2]/div[position()=1]/input
为了准确定位,您可以使用定位标志,即网页中的@class和@ID。对于网站,使用定位标志后的XPath将是:
//div[@class='field-login']/div[contains(@class, 'username-field')]/input
可以看出,它缩短了很多,适应性也得到了很大的提高
类似于在帐户输入框中查找XPath
使用类似的方法,可以获得XPath表达式://div[@id='captcha']//p/img[@id='vcodeimg']
如果手动输入验证码,请在此输入框中输入字母数字。此参数也是一个XPath
登录页面通常会显示一个引人注目的“登录”按钮,该按钮位于XPath。在网页中,它不一定是按钮,也可能是div,只要它用于单击
通常,如果登录成功,将显示一个网页,上面会显示“欢迎XXX”,这可以作为成功登录的标志
请自行开户并充值,并在这两个参数中配置账号和密码
三,。完全爬虫调度
上面的crontab.xml只有一个登录步骤。通常,在网站登录后,只要不关闭浏览器并打开其他网页,就不需要登录。因此,当使用自动登录时,有两个选项
如果您已经登录,DS将根据loginmark标志直接跳过登录过程
四,。处理记录和虚假电话上诉
查找捕获结果文件夹,该文件夹通常位于datasnaperworks目录下。此目录的父目录可以是“文件”->;在DS打印机的菜单上;根据“存储路径”,取数结果按主题名称存储,上面示例的主题名称为testcase_uuAutoLogin_uu步骤,您可以找到此文件夹。打开后,您可以看到一个子目录captcha。完整的目录结构如下图所示
1660287210文件夹是特定时间编码的停靠记录。进入此文件夹可查看原创验证代码图和编码平台返回的结果。如果编码平台的错误率非常高,您可以使用此记录信息联系编码平台,并要求对方提高服务质量
五,。确保信息安全
如上所述,此配置文件存储在用户的本地计算机上,而不是Gooseek ECs上,因此不会透露上述帐户和密码
如有疑问,或