V9及更低集搜客网络爬虫软件新版本对应教程

优采云发布时间: 2021-08-01 07:28

　　支持软件版本：V9及以下吉首网络爬虫软件

　　新版本对应教程：V10及更高版本Data Manager-Enhanced Web Crawler对应教程为“Web Crawler采集表数据”

　　注：Jisouke的GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”改为“任务”。在爬虫浏览器中，先给任务命名然后创建规则，然后登录吉首可以查看任务的采集执行状态，管理线程URL，在“任务管理”中进行调度设置可客官网会员中心。

　　一、操作步骤（看视频）

　　当你列出采集时，你可以看到多条结构相同的信息。我们称一条信息为样本。例如，表中的每一行都是一个样本。比如京东搜索列表中的每一行A产品也是一个例子。如果您有一个收录两个以上示例的列表页面，请复制示例以获取整个列表采集。以下京东列表页面为案例，操作步骤如下：

　　二、Case规则+操作步骤

　　第一步：打开网页

　　1.1，打开GS爬虫浏览器，输入上面的示例网址回车，网页加载完毕后，点击网址输入栏后面的“定义规则”按钮，可以看到一个浮动窗口显示出来，称为工作站，在其上定义规则；

　　1.2，在工作台输入主题名称，点击“检查重复”查看名称是否被占用。

　　第 2 步：标记信息

　　2.1，在浏览器窗口双击你想要的内容采集，在弹出的窗口中输入标签名称，勾选确认或回车完成一次标注操作。必须为第一个标签输入整理箱的名称。这也是建立标签和网页信息映射关系的过程。

　　2.2，重复上一步标记其他信息。

　　第 3 步：复制样本

　　3.1，点击第一个示例中的任意内容，可以看到在下面的DOM窗口中，光标自动定位到一个节点，右键点击这个节点，选择示例复制映射→第一个Piece。

　　3.2，然后，单击第二个示例中的任何内容。同理，在下面的DOM窗口中，光标自动定位到一个节点，右键单击该节点，选择Sample Copy Map→Second Piece。

　　这完成了示例副本映射。

　　注意：有时候sample的copy操作没有报错，但是经过测试，只有采集拿到了一条数据。大部分问题在于整理箱的定位。排序框默认定位方式为“Partial ID”，但京东listing网页排序框的定位方式一般选择“绝对定位”。

　　第 4 步：保存规则并捕获数据

　　4.1，规则测试成功后，点击“保存规则”；

　　4.2，点击“抓取数据”，会弹出DS计数器，开始抓取数据。

　　4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中。详情请参考文章“查看数据结果”。

　　第1部分文章：“采集网页数据”第2部分文章：“翻页采集”

　　如果您有任何问题，可以或

0

2021-08-01

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册