网站采集器自动超文章发布(集搜客GooSeeker爬虫连续动作的知识点、动作类型、如何使用)

优采云 发布时间: 2021-08-27 22:06

  网站采集器自动超文章发布(集搜客GooSeeker爬虫连续动作的知识点、动作类型、如何使用)

  注:Jisouke的GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先给任务命名然后创建规则,然后登录吉首可以查看任务的采集执行状态,管理线程URL,在“任务管理”中进行调度设置可客官网会员中心。

  下面将从连续动作的适用范围、动作的种类、连续动作的使用方法、连续动作的循环执行指令四个方面综合介绍连续动作的知识点。

  一、连续动作的适用范围

  越来越多的网页使用JS动态技术,即网页信息不是立即显示,而是在点击或输入动作后才能浏览到想要的信息,如条件过滤、输入关键词Search、滚动加载、点击目录等,而且这种网页一般没有单独的网址,不能直接采集它,只能设置一个连续动作来实现相应鼠标动作的自动执行,所以以加载所需的信息然后采集下来。

  二、Action 连续动作类型

  连续动作类型逐渐增多。到爬虫的V8.1.0版本,已经实现了10种类型,后续版本会继续增加新的类型。下面简单介绍一下各个动作类型的使用场景:

  

  1.浮动:将鼠标移动到网页上的某些内容上,会弹出一个窗口。想要采集弹窗中的信息,必须设置悬停动作。

  2.点击:如果要点击网页上的按钮或超链接,必须设置点击动作。

  3、双击:类似点击动作,双击鼠标。

  4.滚动:对于页面很长甚至最后无法加载的瀑布式网页,如果想要采集获取更多信息,则必须设置滚动动作,尽可能多地滚动以加载更多信息。

  5.输入:我想在搜索框中自动输入关键词来获取搜索结果的信息,比如在百度上输入关键词进行搜索。

  6.选择:用于点击网页上的下拉菜单,可以实现从指定选项开始逐项点击。

  7、提交:专门用于点击提交按钮,例如在百度输入关键词后点击搜索按钮。

  8、编码:采集爬虫连接编码平台,编码平台返回的验证码自动输入提交,适用于需要输入验证码的网页。

  9.后退:它是浏览器上的后退按钮。阅读完一个网页后想返回上一个网页,使用后退动作。

  10。滚轮:前面有一个滚动屏幕,表示滚动网页右侧的滚动条可以显示更多内容。滚轮是对鼠标滚轮动作的完整模拟,鼠标放在网页的哪个位置,滚轮作用在哪个区域。

  三、如何使用连续动作

  连续动作的作用是模拟人们在浏览网页时的各种操作,从而加载想要的网页信息,最后采集,所以总的来说可以分为两大操作步骤, 第一步 第一步是模拟人们浏览网页的操作,通过在规则中设置连续动作来实现;第二步是采集data,和采集静态页面一样,直接将采集规则应用到想要的信息上。

  关键是第一步。需要弄清楚操作的范围,要设置哪些动作类型,动作的顺序以及要执行的规则数。您可以先在浏览器上浏览信息,梳理出操作范围、动作类型和顺序,然后设置连续动作的规则。

  四、连续动作的循环执行指令

  如上所述,在连续动作中,您只需要设置操作范围、动作类型和动作顺序。不需要担心 action 执行的周期,因为集合爬虫会根据 xpath 锁定的 action 对象数量自动执行周期。这里的循环是基于一种或多种动作类型的组合,因此无需担心如何设置循环。

  

  在《如何将捕获的信息与操作步骤相关联》一文中,实现了自动点击区域二级目录然后分类采集。在这种情况下,在连续动作中只需要设置两次点击动作。一次点击动作用于点击一级目录,通过xpath锁定每个大区域(紫色框,共锁定20个对象),第二次点击动作用于点击二级目录,每个子区域通过xpath锁定(红框,共锁定78个对象)。最后爬虫采集会以这两次点击动作为循环单位自动点击第一、二目录。具体执行过程如下:

  

  提示:1:如何确定多个连续动作的规则

  关键是看网页结构有没有变化。如果动作前后的网页结构发生变化,则必须拆解规则。多级规则通过连续动作中指定的目标主题名称串联起来。

  Tips2:连续动作和爬虫路线的区别

  连续动作的点击动作和爬虫路线的标记线索可以模拟鼠标的点击动作,但是连续动作的效果是在同一个网页上多次点击,爬虫的效果路线在网页上。进行一次点击,通常用于翻页点击。

  另外,爬虫路由的下级线索不是立即点击,而是抓取URL传递给下级规则在采集层级使用,适用于具有独立URL的超链接在网页上。如果超链接没有单独的网址,而是一段javascript代码,例如onclick="javascript:void(0)",这种情况下只能使用连续点击动作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线