免费网页采集器(优采云网站登录时需输入验证码解决方案讲解)
优采云 发布时间: 2021-12-25 08:05免费网页采集器(优采云网站登录时需输入验证码解决方案讲解)
网站有很多,需要登录账号和密码才能采集获取目标数据。有些网站在登录的时候也会需要输入验证码。
对于这种网站,优采云提供了多种解决方案。本课将详细讲解。
一、您需要输入账号和密码才能登录
方法一:浏览器模式输入账号密码登录+记住Cookie
对于需要登录的网站,我们可以先将优采云切换到浏览器模式,在浏览器模式下完成登录。然后通过获取 Cookie 来记住登录状态。这样优采云在执行采集任务时就可以直接在登录状态打开网页,然后采集数据。
以豆瓣为例,
登录网址为:
采集 数据的实际 URL 是:%E5%B0%8F%E8%AF%B4
步骤1、 使用浏览器模式,输入账号密码,完成登录
在客户端首页输入登录网址,打开网页后点击
按钮进入浏览器模式。在浏览器模式下,输入账号密码并登录。如您所见,我们现在已经以登录状态访问了网页。
特别说明:
a.优采云提供浏览器模式。点击
按钮进入浏览器模式。在浏览器模式下,和普通浏览器访问网页完全一样:只能浏览网页数据,不能配置规则。如需编辑规则,点击【编辑模式】切换回编辑规则模式。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
步骤 2、 记住 Cookie
现在我们处于登录状态,优采云可以在登录后获取cookie并记住登录状态。
从左侧拖入一步【打开网页】,输入我们要采集的数据的目标地址:%E5%B0%8F%E8%AF%B4。然后选择【打开网页】这一步,→勾选【自定义Cookies】→点击【获取当前页面的Cookies】(点击后可以看到框内出现cookies)→点击【确定】保存。
优采云会记住这个cookie状态,启动采集后,网页会以登录状态打开。
特别说明:
一个。什么是饼干?通俗的说,cookies是存储在用户电脑上的小文件,用于保存一些网站的用户数据,其作用是让浏览器为用户定制内容。例如:用户第一次访问某个网站,输入账号密码登录,浏览器会询问是否需要“记住账号密码”。选择是后,浏览器会将这些账号和密码信息保存在用户的电脑上。下次访问这个网站时,无需再次输入账号密码。
湾 Cookie 是有生命周期的,这个周期有多长取决于采集的网站。如果cookie过期,则需要重新登录后获取cookie。
C。如果需要切换账号,可以打开【高级选项】,勾选【打开网页前清理缓存】。这样每次打开网页都会清理缓存的信息,在未登录状态打开网页,此时登录新账号。
步骤3、 根据需要配置采集任务
接下来请根据采集的要求自行配置采集任务。这是提取第1页列表数据的示例。如果没有,请参阅初学者教程。
可以看到启动本地采集后,优采云以登录状态打开网页,采集数据。
方法二:配置采集的登录流程
也可以在采集流程中配置【输入账号-输入密码-点击登录】的步骤来模拟登录。这样,当优采云执行采集的任务时,就会经历输入账号和密码的过程。
步骤1、 配置输入账号和密码的流程
配置采集流程中【输入账号-输入密码-点击登录】的步骤。
步骤 2、 根据需要配置 采集 任务
这是提取字段的简单示例。
启动本地采集后,可以看到优采云已经进行了【输入账号-输入密码-点击登录】的过程,完成登录并提取数据。
二、需要输入账号、密码、验证码登录
方法一:浏览器模式输入账号、密码、验证码登录+记住Cookie
按照上面提到的方法,打开优采云的浏览器模式,在浏览器模式下输入账号、密码和验证码。同样按照前面提到的方法,记住cookie。
然后根据需求配置规则,这里不再赘述。
记住cookies非常方便,每次在登录状态直接打开网页采集数据。
但是如果目标网站每次采集都需要输入账号、密码和验证码登录,我该怎么办?每次输入的验证码都会变化,优采云怎么处理?
方法二:配置登录采集流程,手动识别验证码
在优采云中,可以在执行本地采集时手动识别验证码,几乎支持所有类型的验证码。
步骤1. 按照上述方法配置【输入账号-输入密码】的步骤。
步骤2. 将优采云切换到浏览器模式,输入验证码。
特别说明:
一个。为什么不做一个像输入账号密码那样的【输入验证码】的过程?因为账号密码是固定的,优采云可以根据我们的设置输入。面对不断变化的验证码,这是行不通的。
步骤3. 取消浏览器模式,选择登录按钮,进行【点击登录】步骤。现在,我们完成了登录。
步骤4. 对于【点击登录】的步骤,设置【执行前等待】,稍等片刻。这样做的目的是:优采云执行采集任务时,自动输入账号密码后,等待一段时间后【点击登录】。这个等待时间用于我们手动输入验证码。
步骤5. 根据需求配置采集规则。下面是一个简单的数据提取。
步骤6. 启动采集后,可以看到优采云输入账号密码后处于等待状态。我们手动输入验证码,等待后点击登录按钮完成登录,采集到需要的数据。
特别说明:
一个。几乎所有类型的验证码都可以通过这种方式验证:输入验证码、滑块验证码、手势验证码。因为我们自己手动完成验证。
湾 此方法只能用于本地采集,不适用于云采集。因为手动输入验证码需要看到运行采集任务的进程,本地采集可以看到,但是云端采集看不到采集的进程采集。
方法三:配置登录采集进程自动识别验证码
优采云提供自动编码工具,可实现验证码的自动识别。支持自动识别【在输入框中输入验证码】和【滑块验证码(部分)】。
在输入框中输入验证码
先配置【输入账号-输入密码】的流程,然后使用【优采云验证码识别】控件。
滑块验证码(部分)
特别说明:
一个。【优采云验证码识别控制】,仅支持两种验证码:输入验证码和滑块验证码(部分)。
湾 此方法可用于本地采集,需要手动输入验证码。
C。这种方式最常用在云端采集,配合验证码包实现自动编码。验证码包需要另外购买,点击查看并购买验证码包。