V9及更低集搜客网络爬虫软件新版本对应教程

优采云 发布时间: 2021-08-01 07:28

  V9及更低集搜客网络爬虫软件新版本对应教程

  支持软件版本:V9及以下吉首网络爬虫软件

  新版本对应教程:V10及更高版本Data Manager-Enhanced Web Crawler对应教程为“Web Crawler采集表数据”

  注:Jisouke的GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”改为“任务”。在爬虫浏览器中,先给任务命名然后创建规则,然后登录吉首可以查看任务的采集执行状态,管理线程URL,在“任务管理”中进行调度设置可客官网会员中心。

  一、操作步骤(看视频)

  当你列出采集时,你可以看到多条结构相同的信息。我们称一条信息为样本。例如,表中的每一行都是一个样本。比如京东搜索列表中的每一行A产品也是一个例子。如果您有一个收录两个以上示例的列表页面,请复制示例以获取整个列表采集。以下京东列表页面为案例,操作步骤如下:

  

  二、Case规则+操作步骤

  第一步:打开网页

  1.1,打开GS爬虫浏览器,输入上面的示例网址回车,网页加载完毕后,点击网址输入栏后面的“定义规则”按钮,可以看到一个浮动窗口显示出来,称为工作站,在其上定义规则;

  1.2,在工作台输入主题名称,点击“检查重复”查看名称是否被占用。

  

  第 2 步:标记信息

  2.1,在浏览器窗口双击你想要的内容采集,在弹出的窗口中输入标签名称,勾选确认或回车完成一次标注操作。必须为第一个标签输入整理箱的名称。这也是建立标签和网页信息映射关系的过程。

  2.2,重复上一步标记其他信息。

  

  第 3 步:复制样本

  3.1,点击第一个示例中的任意内容,可以看到在下面的DOM窗口中,光标自动定位到一个节点,右键点击这个节点,选择示例复制映射→第一个Piece。

  

  3.2,然后,单击第二个示例中的任何内容。同理,在下面的DOM窗口中,光标自动定位到一个节点,右键单击该节点,选择Sample Copy Map→Second Piece。

  

  这完成了示例副本映射。

  注意:有时候sample的copy操作没有报错,但是经过测试,只有采集拿到了一条数据。大部分问题在于整理箱的定位。排序框默认定位方式为“Partial ID”,但京东listing网页排序框的定位方式一般选择“绝对定位”。

  

  第 4 步:保存规则并捕获数据

  4.1,规则测试成功后,点击“保存规则”;

  4.2,点击“抓取数据”,会弹出DS计数器,开始抓取数据。

  4.3,采集 成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中。详情请参考文章“查看数据结果”。

  

  第1部分文章:“采集网页数据”第2部分文章:“翻页采集”

  如果您有任何问题,可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线