自动抓取网页数据(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置 )
优采云 发布时间: 2021-09-24 14:28自动抓取网页数据(集搜客GooSeeker网页抓取软件与在线打码平台对接需要配置
)
极速客的GooSeeker网络爬虫软件可以对接在线编码平台。如果捕获到的网站需要验证码,则将验证码转发到在线编码平台,GooSeeker将返回编码平台。结果自动输入网页,完成编码过程。GooSeeker V5.1.0 版本支持以下功能
注:crontab.xml 文件是 DS 计数机用于定期自动调度多个爬虫窗口的命令文件。详情请参考 GooSeeker 对该文件的解释。下面将详细讲解自动登录和编码平台对接需要配置的参数。
内容
1、自动登录和自动编码需要的参数
请注意:此版本的 GooSeeker 在登录过程中不会自动识别是否需要编码。如果使用以下配置参数,那么在登录过程中必须进行编码。如果您只需要自动登录,请使用专用的 login crontab 命令。
以下是crontab.xml文件中相关指令的crontab登录指令示例.zip(点击下载示例):
2. 参数说明
其他通用参数请参考《如何通过crontab程序实现周期增量采集数据》。下面主要解释几个特殊参数。
比如在GoWhere登录页面,可以看到上图的界面。此参数是 URL %3A%2F%2F%2F
就是上图中需要输入的账户名
是上图中需要输入的密码吗
这是一个标准的xpath,可以用MS找号,打开内容定位功能,在浏览器中点击账号输入框,可以在“网页结构”窗口中找到这个输入框,点击“显示XPath”按钮,可以看到定位这个输入框的XPath表达式,如下
/html/body/div[position()=2]/div[position()=3]/div[position()=2]/div[position()=1]/form/div[position()=2]/div[position()=1]/input
为了能够准确定位,可以使用定位标记,即网页中的@class和@id。对于去哪儿网站,使用定位标记后的xpath为:
//div[@class='field-login']/div[contains(@class, 'username-field')]/input
可以看出,它的时间短了很多,适应性也提高了很多。
类似账号输入框定位xpath
使用类似的方法,可以得到xpath表达式://div[@id='captcha']//p/img[@id='vcodeImg']
如果您手动输入验证码,请输入您在此输入框中看到的字母数字。这个参数也是一个xpath
登录页面通常会显示一个醒目的“登录”按钮。此 xpath 用于定位此按钮。不一定是网页上的按钮,也可以是div,只要是用来点击的就行。
通常,如果登录成功,网页上会显示“Welcome xxx”,这串文字可以作为登录成功的标志。
需要用户自行开户和充值,并在这两个参数中配置账号和密码。
3.完成爬虫调度
上面的crontab.xml只有一个登录步骤(step),通常在一次网站登录后,只要不关闭浏览器打开其他网页,就不需要登录。 所以,当使用自动登录,有两个选项
如果您已经登录,DS点票机会根据登录标志直接跳过登录过程。
4. 错误呼叫的流程记录和投诉
找到爬取结果文件夹,一般在DataScraperWorks目录下。该目录的上级目录可以在DS计数器的菜单“文件”->“存储路径”中找到。爬取的结果是按主题名存储的,上例主题名是testcase_autologin_step,然后就可以找到这个文件夹,打开之后可以看到一个子目录captcha,完整的目录结构如下图
1660287210文件夹是某段时间进行编码对接的记录。进入这个文件夹,可以看到原来的验证码图和编码平台返回的结果。如果打码平台出错率高,您可以利用此记录信息联系打码平台,要求对方提高服务质量。
五、信息安全保障
如前所述,这个配置文件是保存在用户本地的电脑上,而不是GooSeeker云服务器上,所以上面的账号和密码是不会泄露的。
如有疑问,您可以或