集搜客GooSeeker爬虫术语“主题”统一改为“任务”

优采云 发布时间: 2021-08-07 18:25

  集搜客GooSeeker爬虫术语“主题”统一改为“任务”

  注:Jisouke的GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先给任务命名,然后创建规则,然后登录吉首可以查看任务的采集执行状态,管理线程URL,在“任务管理”中进行调度设置可客官网会员中心。

  一、操作步骤

  极速客的“飞行模式”是专门针对那些没有单独网址的弹窗网页的,也就是说点击后会弹出一个新的标签页,但网址不变。 “飞行模式”可以模拟人的操作。打开一个弹窗采集后,打开下一个弹窗,继续采集,这样弹窗的网页信息全部采集下。

  以下示例以百度百家为例。虽然它的弹窗有独立的URL,但是这种情况下最简单的采集方法就是做关卡采集,但是为了给大家展示飞翔的采集,我们还是把它当成URL不变吧。步骤如下:

  

  二、Case规则+操作步骤

  第一步:打开网页

  1.1,打开GS爬虫浏览器,输入网址,等待网页加载,然后点击“定义规则”,然后输入主题,最后再次勾选。主题名称不能重复。

  

  第 2 步:定义一级规则

  2.1,双击要采集的信息,打勾确认。一级规则可以随意标记一条信息,目的是让爬虫判断是否执行采集。

  

  2.2,在这种情况下,点击每个文章标题,然后跟踪弹出的网页来采集数据。您需要编写用于定位每个单击对象的 xpath 表达式。我们可以使用“show xpath”功能来自动定位并找到能够定位到每个动作对象的xpath。但是对于非结构化的网页,“Display XPath”无法定位到所有的动作对象。您需要自己编写一个合适的 XPath。你可以看看XPath教程。

  

  2.3,在连续动作中创建“点击”动作,填写下属主题名称“百度百家文章采集”,勾选“飞行模式”,填写xpath表达式和动作姓名

  2.4,点击“保存规则”

  

  第 3 步:定义二级规则

  3.1,再次点击“定义规则”返回正常网页模式,然后点击第一篇文章文章标题,会弹出一个新窗口,在新的页面中定义二级规则窗口

  3.2,双击要采集的信息进行标注,映射定位标注准确采集range

  3.3,点击“测试”,如果输出结果没有问题,点击“保存规则”

  

  第 4 步:捕获数据

  4.1,在DS计数器中搜索一级规则并运行,点击成功会弹出一个新窗口,采集二级网页,采集完弹窗网页会自动关闭,然后点击下一步继续采集。这是flyby模式,智能跟踪弹窗采集到的数据。

  注意:一级规则的后续动作执行成功后,会自动采集下级规则,所以不需要单独运行下级规则,尤其是下级规则级别规则没有独立的URL,运行时目标数据会失败。

  

  

  注:以上为网站案例的采集规则,请根据目标网站的实际情况定义规则。另外,飞越模式为旗舰版功能,请先购买再按规则采集数据。

  Tips:没有独立网址的网页如何加载和修改规则?

  对于没有单独网址的网页,需要先点击那个页面,然后搜索规则,右键选择“只加载规则”,点击“规则”菜单->“后续分析”完成加载操作,可以修改规则。

  比如这种情况下的二级规则是没有独立的URL。需要先加载一级规则,恢复到普通网页模式。单击文章 标题,将弹出一个新窗口。 (建议将操作写在第一级规则的备注中,方便阅读),然后右键点击第二级规则,选择“仅加载规则”。

  

  Part 1 文章: "Continuous Action: 设置自动返回上级页面" Part 2 文章: "Continuous Code: 破解各种验证码"

  如果您有任何问题,可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线