全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

集搜客GooSeeker爬虫术语“主题”统一改为“任务”

优采云发布时间: 2021-08-07 18:25

　　集搜客GooSeeker爬虫术语“主题”统一改为“任务”

　　注：Jisouke的GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”改为“任务”。在爬虫浏览器中，先给任务命名，然后创建规则，然后登录吉首可以查看任务的采集执行状态，管理线程URL，在“任务管理”中进行调度设置可客官网会员中心。

　　一、操作步骤

　　极速客的“飞行模式”是专门针对那些没有单独网址的弹窗网页的，也就是说点击后会弹出一个新的标签页，但网址不变。 “飞行模式”可以模拟人的操作。打开一个弹窗采集后，打开下一个弹窗，继续采集，这样弹窗的网页信息全部采集下。

　　以下示例以百度百家为例。虽然它的弹窗有独立的URL，但是这种情况下最简单的采集方法就是做关卡采集，但是为了给大家展示飞翔的采集，我们还是把它当成URL不变吧。步骤如下：

　　

　　二、Case规则+操作步骤

　　第一步：打开网页

　　1.1，打开GS爬虫浏览器，输入网址，等待网页加载，然后点击“定义规则”，然后输入主题，最后再次勾选。主题名称不能重复。

　　

　　第 2 步：定义一级规则

　　2.1，双击要采集的信息，打勾确认。一级规则可以随意标记一条信息，目的是让爬虫判断是否执行采集。

　　

　　2.2，在这种情况下，点击每个文章标题，然后跟踪弹出的网页来采集数据。您需要编写用于定位每个单击对象的 xpath 表达式。我们可以使用“show xpath”功能来自动定位并找到能够定位到每个动作对象的xpath。但是对于非结构化的网页，“Display XPath”无法定位到所有的动作对象。您需要自己编写一个合适的 XPath。你可以看看XPath教程。

　　

　　2.3，在连续动作中创建“点击”动作，填写下属主题名称“百度百家文章采集”，勾选“飞行模式”，填写xpath表达式和动作姓名

　　2.4，点击“保存规则”

　　

　　第 3 步：定义二级规则

　　3.1，再次点击“定义规则”返回正常网页模式，然后点击第一篇文章文章标题，会弹出一个新窗口，在新的页面中定义二级规则窗口

　　3.2，双击要采集的信息进行标注，映射定位标注准确采集range

　　3.3，点击“测试”，如果输出结果没有问题，点击“保存规则”

　　

　　第 4 步：捕获数据

　　4.1，在DS计数器中搜索一级规则并运行，点击成功会弹出一个新窗口，采集二级网页，采集完弹窗网页会自动关闭，然后点击下一步继续采集。这是flyby模式，智能跟踪弹窗采集到的数据。

　　注意：一级规则的后续动作执行成功后，会自动采集下级规则，所以不需要单独运行下级规则，尤其是下级规则级别规则没有独立的URL，运行时目标数据会失败。

　　

　　

　　注：以上为网站案例的采集规则，请根据目标网站的实际情况定义规则。另外，飞越模式为旗舰版功能，请先购买再按规则采集数据。

　　Tips：没有独立网址的网页如何加载和修改规则？

　　对于没有单独网址的网页，需要先点击那个页面，然后搜索规则，右键选择“只加载规则”，点击“规则”菜单->“后续分析”完成加载操作，可以修改规则。

　　比如这种情况下的二级规则是没有独立的URL。需要先加载一级规则，恢复到普通网页模式。单击文章标题，将弹出一个新窗口。（建议将操作写在第一级规则的备注中，方便阅读），然后右键点击第二级规则，选择“仅加载规则”。

　　

　　Part 1 文章: "Continuous Action: 设置自动返回上级页面" Part 2 文章: "Continuous Code: 破解各种验证码"

　　如果您有任何问题，可以或

　　

0

2021-08-07

文章采集完

0 个评论

要回复文章请先登录或注册

视
频
教
程

在
线
客
服

官方客服QQ群

在
线
客
服