不用采集规则就可以采集(是不是集搜客网络爬虫软件就采集不了了?(图))
优采云 发布时间: 2022-04-06 12:10不用采集规则就可以采集(是不是集搜客网络爬虫软件就采集不了了?(图))
注:从V1.5.x版本开始,下文提到的吉索克采摘浏览器已更名为吉索克数据管理器
一位用户提出了以下问题:
阿里巴巴采购的网站无法在极搜客网络爬虫V9.0.5上显示,之前制定的规则无法加载分析,无法用DS计数器爬取数据。,我曾经尝试过修改UserAgent,但是换成Firefox 45还是不行。我也清了缓存也没有用,而且好像没有反爬。Jisouke网络爬虫软件的采集不是已经没有了吗?
下面我们就如何使用GooSeeker新发布的吉搜客采摘浏览器进行采集阿里巴巴外包查询网站来解答用户的问题。
请注意:本文发布于2020年2月29日,即搜客采摘浏览器首次公开发布。版本号是 V1.0.7。软件正在快速迭代中,等你看到这个文章后,吉搜客采摘浏览器的功能可能更强大了。
1.吉搜客采摘浏览器在哪里下载
目前吉搜客采摘浏览器作为手动提取软件发布,爬虫功能相当于*敏*感*词*自动提取,因此也是采摘软件的一部分。
2. 为什么叫 Picking Browser
即搜客采摘浏览器,具有手动提取和自动采集功能。不过目前还没有定义规则的功能,所以一定要同时安装吉索克爬虫软件V9.0.5及以上版本和吉索克采摘浏览器。下面解释一下这两个软件是如何协同工作来定义爬虫采集的规则的。
3. 如何运行 Picker Browser
打开吉搜客采摘浏览器,登录账号是与吉搜客爬虫软件共享的,所以正常情况下应该会自动登录,可以看到如下界面
从上图可以看出,左侧边栏的工具栏是按键功能的入口,底部边栏是状态栏。绿色表示登录成功。
4. 开始定义规则
在吉搜客采摘浏览器中加载示例页面,即老版爬虫软件无法显示的阿里巴巴外包询价页面,在吉搜客采摘浏览器中可以看到该页面加载成功。手动滚动到最后,等到所有内容都显示出来,然后点击左栏工具栏上的绿色+按钮,如下图。
点击上图所示按钮后,需要等待10秒,等待MS运行有点慢。可以看到Jisouke爬虫软件的MS被调用,示例页面加载完毕,自动输入定义。规则状态。
5.在MS平台上定义规则
就像定义通用规则一样,在大多数情况下,从吉搜客采摘浏览器传输的网页是完全一样的。少数情况下会显示乱码,但不影响采集规则的定义。
如上图,定义好规则后,使用红色箭头指向的按钮保存规则,但不要使用蓝色箭头指向的“爬取数据”,因为直接爬取数据其实是一个快照,你必须去吉搜客挑选和浏览。在服务器上运行这个爬虫任务。
6.如何爬取数据
返回吉搜客采摘浏览器,点击左侧栏的任务管理按钮,进入任务管理页面,如下图
以下是任务管理页面的概览
如上图,在任务管理面板,左侧箭头位置,鼠标悬停的菜单有“开始采集”,是之前的单曲搜索/采集搜索,新版本无关,我想运行几个爬虫窗口。右边的两个箭头可以设置爬虫组和运行爬虫组。
7、观察爬虫状态
在吉搜客采摘浏览器上,不再有DS柜台控制面板的静态显示,而是缩小为右下角的圆形图标。将鼠标悬停在这个图标上,可以看到爬虫的状态,显示的内容就像之前DS计数器的控制面板。
8.设置爬虫参数
如上图,点击左侧栏的设置按钮。大部分参数与旧版爬虫相同,只是滚动次数暂时不同。新版本中的滚动次数是滚动了多少屏幕,而旧版本是滚动到最后后额外滚动的次数。以后会和老版本保持一致(注意:这是一个临时状态)。
9、其他功能介绍
从上到下分别是定义规则、任务管理、数据管理、文本分析、内容摘录、配置、帮助、账号管理
10.实现的爬虫功能:
a、内容爬取:包括普通html和iframe内的内容爬取
b、翻页:暂不支持翻页按钮位于iframe中的功能
c、连续点击:iframe中的点击尚不支持
d、附件下载
11.老版本爬虫没有的功能
a、生成html快照
b、截取并保存ajax消息,包括post、get等各种http消息
c、模拟post截取json数据
12. 总结
因为还处于测试阶段,可能会有很多问题,欢迎指出。另外mac版没有做预发布logo标注工作,需要单独向管理员申请试用。Windows 版本目前仅适用于 64 位操作系统。如需支持 32 位操作系统,请联系管理员。以上功能是在2020年2月29日看到的,很快随着新版本的发布,网络爬虫功能会更加全面。