前程无忧网站内容(集搜客针对不同的网站(网页)提供快捷采集工具 )
优采云 发布时间: 2022-03-05 01:00前程无忧网站内容(集搜客针对不同的网站(网页)提供快捷采集工具
)
极搜客为不同的网站(网页)提供了很多快捷方式采集工具,添加链接或者关键词,就可以采集数据,不需要做采集规则,非常简单快捷。
下面以诚武51job的招聘信息采集为例,讲解一下Quick采集的使用过程。
1. 先下载安装Gooseeker数据管家(增强爬虫软件)
数据管家其实是一个具有爬虫功能和数据分析功能的特殊浏览器。
安装完成后,Data Manager 将自动启动。
关闭数据管家后,要重新启动它,请双击桌面上的数据管家图标。
2. 在 Gooseeker 数据管理器中,打开吉索克官网
登录爬虫,登录会员中心(注意爬虫账号和会员中心账号必须相同),查看服务器是否已经连接(绿勾连接,红勾未连接)。
3. 输入快捷方式采集
点击数据管家左侧栏的“快速”按钮,进入快捷方式采集。
4. 选择合适的快捷方式
根据你要采集的网页,选择类别-网站-网页
比如我们要采集无忧Careers_Job关键词搜索列表页面,选择招聘-无忧未来-无忧未来_职位关键词搜索列表
如下图,选择快捷工具后,可以打开示例页面查看,在后续操作中确保添加的链接与示例页面类似。
或浏览页面底部的示例数据,以了解有关所选快捷方式是否满足您的要求的更多信息。
Tips:针对不同的招聘网站,还有其他的快速采集工具,如:智联招聘、猎聘、中国人才网、拉狗网
5. 操作步骤
下面以诚无游_Post关键词搜索列表快捷工具为例,说明操作过程。
5.1 粘贴 URL,开始采集
例如,我们想要一个职位名称采集“软件测试工程师”的搜索列表页面。
在无忧网站上,使用Ctrl+c将页面链接复制为采集,并使用Ctrl+v粘贴到搜索列表快捷工具的URL输入栏,选中后页数,开始 采集。
5.2 采集 中的爬虫窗口
点击获取数据后,
数据管家自动弹出两个采集窗口(窗口右下方有一个绿色的状态球),一个用于加载网页,采集数据,一个用于打包上传数据。两个 采集 窗口在工作时都不能关闭。
5.3 包下载数据
数据管家在弹出采集窗口的同时,也弹出了快捷方式采集数据管理窗口。
当 采集 完成时,采集 状态将从*敏*感*词*的“采集 进行中”变为绿色的“已经 采集”。然后打包下载数据,下载的数据一般保存在电脑的下载文件夹中。
如果,采集不成功,采集状态会变为红色“停止”,此时,检查
6. 采集 收到的数据
5.5.5.5.11_Post关键词搜索列表快捷工具采集获取的数据截图:
7. 继续采集 不用担心_职位详情
如果还想进一步进入职位详情页面进入采集数据,可以选择5.5.11_职位详情快速工具,选择输入多个网址。
Ctrl+c批量复制上面数据表中job details页面的链接,Ctrl+v粘贴到这里,点击OK,就可以批量采集job详情信息了。采集,包下载过程与上面类似。