采集器的自动识别算法(数据采集器隐藏的高级应用掌握增量采集的方式(图))

优采云发布时间: 2021-09-04 15:23

　　在数据采集器的使用过程中，面对不同的网站，我们往往需要一些特殊的功能来帮助我们采集更准确，比如智能反封印响应，新数据增量采集，如何登录等。本章主要介绍数据采集器hiding的高级应用。掌握采集的递增方式。学习重点目录目录拦截网页广告将鼠标指针移到元素 10 一、blocking 网页广告优采云采集器拦截网页广告功能用于拦截网页的一部分（如 pop -up 左右两边的广告等）），为了加快网页的加载速度，打开网页后更清晰的看到需要采集的数据。由于网页的情况不同，优采云采集器的内部算法可能无法适应所有情况，页面本身的采集数据可能会被屏蔽。如果您在勾选“阻止网页广告”复选框后发现网页显示不一致，请取消选择。在向导模式和自定义采集模式下，点击“设置”按钮，在弹出的界面中勾选“阻止网络广告”复选框。目录目录切换浏览器版本将鼠标指针移动到元素 10 二、Switch 浏览器版本一些网页只能在特定浏览器版本中打开。优采云采集浏览器内置切换浏览器版本功能，主要可以在火狐浏览器版本、谷歌浏览器版本和模拟手机浏览器之间切换进行访问。在向导模式和自定义采集模式下，点击“设置”按钮，在“采集设置”区域的“浏览器版本”下拉列表中选择需要的版本。

　　Contents 目录禁止加载图片。将鼠标指针移动到元素上。 10 三、禁止加载图片。使用优采云采集器采集网站数据时网站图片过多导致网页加载速度过慢，或者广告图片过多导致网页加载图片过慢。在这种情况下，可以使用采集器的禁止加载图片功能来加速采集。因网页情况不同，部分网站设置为不加载图片保持加载。如果勾选“不加载网页图片”复选框后网页加载无法完成，可以取消选择或配合“超时”时间或Ajax设置。如果流程图中收录识别验证码的步骤，此处需要取消勾选“不加载网页图片”复选框，否则优采云采集器将无法获取验证码图片，自动编码功能将失效。在向导模式和自定义采集模式，点击“设置”按钮，在弹出的界面勾选“不加载网页图片”内容目录增量采集将鼠标指针移动到元素10屏蔽网页广告四、 increment采集自动去重方法将数据定义为无意义数据，进行去重，自动去重方法可以估计网页的内容，例如一个网页最多可以更新采集中的15条信息循环，循环次数可设置为20次。每次只@k 11@20条最新内容，多出来的5条会自动去重，最终效果从采集到最新15个增量。自动去重方法通过设置循环中的循环次数来实现增量采集。

　　自动去重方法的优点是操作简单，但缺点是没有采集date字段或者不能因为采集date字段使同一条记录不一致。四、 increment采集对比URL URL 对比URL 方法通过对比采集网页的URL 来识别。对比过程中发现一个URL已经采集，所以不要使用向导模式，在自定义采集模式下，点击“设置”按钮，勾选“启用增量采集”框来比较整个 URL 或 URL 的某些参数。比较URL法的优点是操作简单，识别准确，没有项目决定网页的最大更新次数，没有重复次数。缺点是无法识别Ajax加载方式网页，因为Ajax加载方式不会改变网页链接；网页同一部分的相同内容，如果网址不同，则不能使用此方法。四、 increment采集触发方式触发方式通过判断每条数据的更新日期来判断是否为增量数据。您可以通过触发器相关设置进行操作。如果页面列表是按时间排序的进行排序，可以设置如果发现比多旧的数据更旧就停止本次采集；如果网页列表的顺序不是按时间排序的，可以设置在找到比多少旧的数据时丢弃数据。增量采集触发设置如图所示。将时间字段设置为早于某个时间。本例中，如果设置为比当前时间早减5小时，则数据将被丢弃。效果是采集只会在过去 5 小时的数据中以采集为增量。

　　四、 increment采集目录目录智能防封鼠标移至元素 10 拦截网页广告五、智能防封切换代理IP 随机等待方式降频方式切换代理切换代理IP 切换代理IP法律适用于使用IP地址检测采集行为的网站。是为了避免网站防采集通过“切换一段时间”和“网站密封重试时切换代理IP”的方式。 “切换一段时间”的操作方法是：在向导模式和自定义采集模式下，点击“设置”按钮，在“智能防拦截”中勾选“使用代理IP”复选框区域，如图所示。 “网站重试时切换代理IP被拦截”的操作方法是：在流程图中选择“点击元素”或“打开网页”模块，在“重试”区域选择“重试时切换浏览器”复选框，如下图五、智防封切换浏览器版本方法切换浏览器版本方法切换浏览器版本避免采集. 操作方法是：在向导模式和自定义采集模式下，点击“设置”按钮，在弹出的界面“智能防拦截”区域中勾选“定时切换浏览器版本”复选框。五、智能防拦截定时清除定时清除CookieCookieCookie是指网站存储在用户本地终端上的某些数据，用于识别用户身份并跟踪会话。

　　对于一些使用cookies的网站，通过URL重复打开的行为可能会导致反采集。在这种情况下，我们只需要定期清除cookies以避免反采集。操作方法是：在向导模式和自定义采集模式下，点击“设置”按钮，在“智能防拦截”区域勾选“清除Cookies”复选框。五、智能防封随机等待方式随机等待方式部分网站防止通过用户操作行为检测采集。例如，记录每次点击和翻转之间的间隔时间。如果间隔时间相同，则判断为爬虫，以防止采集。这时候可以通过随机等待来进行智能反阻塞。智能防封随机等待操作如图所示。将流程图中每一步的“执行前等待”设置为“随机等待1-30次点击，随机等待，避免检测用户行为。五、智能防封的降频方法降频方法部分网站detection一段时间内的访问次数，比如每分钟不超过20次，否则会被识别为爬虫并阻止采集。对于这种网站，我们可以减少访问频率来避免采集.操作方式类似随机等待方式，通过设置“执行前等待”选项来延长每一步的操作时长，减少访问频率，从而避免采集.五、智能防封内容目录登录采集将鼠标指针移到element上10 阻止网页广告六、login采集account 密码登录“登录”按钮完成登录。

　　输入账号密码需要“输入文字”模块，这里简单介绍一下。自定义采集模式的输入文本操作如图所示。点击下方浏览器界面中的用户名文本输入框，在“操作提示”面板中选择“输入文本”选项，生成流程图中的“输入文本”模块。 “输入文本”模块的高级选项包括操作名称、执行前等待、使用周期等选项。输入框的作用是输入指定的文字，在“要输入的文字”输入框中输入需要的文字，点击“确定”按钮保存，然后在下面的浏览器界面中自动输入。六、Login采集帐号密码登录帐号密码登录帐号密码登录流程图如图所示。对于账号密码中输入的网站，我们可以通过“输入文本”模块输入账号密码，点击“登录”按钮或验证验证码登录。例子网站除了输入账号和密码，还需要输入验证码。对于验证码识别，优采云采集器有一个“识别验证码”模块，用于自动识别网页中的验证码并完成登录。六、Login采集帐号密码登录帐号密码登录自定义采集方式的身份验证码操作如图。首先点击验证码输入框，在“操作提示”面板中选择“识别验证码”选项，然后根据提示点击没有“登录”按钮的图片，然后配置识别失败场景，即检测到识别失败时使用自动重新输入，一般网页会显示验证码输入错误，点击即可。

　　配置识别失败场景后，需要手动输入正确的验证码来配置识别成功场景。识别成功后，模块会自动点击“登录”按钮进行登录。六、Login采集CookieCookie 登录登录 Cookie 登录使用浏览器中的缓存设置来缓存网页的当前状态，您可以快速进入页面的当前状态。每个网站的 Cookie 机制都不同。有的网站的cookies会在一年后有效，有的网站可能会打开一个新的网页，更换电脑，或者几分钟后就会过期。这种网站其实不适合用cookie登录。建议使用账号密码登录，所以需要根据我们采集网站的情况来处理。 cookie登录的方式不需要输入账号和密码，直接打开网页就是登录状态。首先将优采云采集器中的页面调整为登录状态。您可以使用账号密码登录方式完成登录，然后在流程图中选择“打开网页”模块，在右侧的“使用指定的cookies”复选框中勾选“自定义cookies”选项，然后点击“获取当前页面cookies”按钮，输入框会自动生成cookie，然后打开的网页会自动完成登录。六、Login采集CookieCookie 登录登录 Cookie 也可以在浏览器中自行获取。获取步骤如下。

　　在Chrome浏览器中输入账号和密码登录网页。按“F12”键调出网站源代码。选择“网络”选项，然后按“F5”键调出对应的网络信息，得到Cookie演示，如上图所示。将窗口中的滚动条拖到顶部。一般选择最上面的第一条记录来获取我们需要的cookie信息，即选择与URL中后缀一致的Name。点击Name后，点击Headers选项获取头文件信息，然后拖动滚动条找到对应的cookie信息，位置如下图所示。将“Cookie:”后面的信息全部复制，粘贴到优采云采集器的Cookie输入框中。六、Login采集 Contents Contents 提取网页源代码将鼠标指针移动到元素10 阻止网页广告。单击需要提取源代码的元素后，在“操作提示”面板中选择该元素的采集InnerHtml 或OuterHtml。 InnerHtml 提取当前元素的内部网页源代码，不收录我们点击的元素的源代码，而 OuterHtml 提取的源代码收录当前元素的网页源代码。除了通过网页界面的“操作提示”面板提取外，我们还可以通过修改字段提取内容来提取源代码。

<p>在流程图中选择“提取数据”模块，选择需要修改的字段，点击下方“自定义数据字段”按钮，选择“自定义捕获方法”选项，将捕获方法修改为InnerHtml或OuterHtml，如下图所示。七、网页源代码提取内容目录采集及图片和附件的下载将鼠标指针移到元素上 10 拦截网页广告部分网页收录图片和附件。对于图片和附件，采集器可以下载他们的链接采集，然后使用下载工具批量下载到指定位置存储。附件和图片链接的提取操作如图所示。单击需要提取链接的附件或图片，在“操作提示”面板中单击“采集此链接地址”或“采集此图片地址”选项。八、Pictures，采集附件和下载目录。循环浏览下拉框并将鼠标指针移动到元素。网页内容经过过滤，方便查看，如上图所示。优采云采集器可以自动循环浏览下拉框中的所有内容，并使用采集网页上的所有信息。自定义采集模式下的循环切换下拉框的操作如下图所示。点击选择下拉框后，点击“操作提示”面板中的“循环开关下拉列表选项”选项，即可在流程图中生成“循环开关下拉选项”模块。

0

2021-09-04

采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集器的自动识别算法(数据采集器隐藏的高级应用掌握增量采集的方式(图))

0 个评论

发起人

AI时代内容工厂

采集器的自动识别算法(数据采集器隐藏的高级应用掌握增量采集的方式(图))

0 个评论

发起人

相关问题