【智联招聘】智联招聘职位数据采集

优采云发布时间: 2020-08-09 07:54

　　采集场景

　　在智联招聘地区急聘搜索页（），输入关键词搜索（示例中的搜索关键词为【爬虫工程师】），搜索后得到急聘信息列表页。点击职位链接，进入职位详情页，采集详情页数据。

　　采集字段

　　职位名称、职位薪水、职位描述、职位链接等。

　　鼠标放在图片上，右键，选择【在新标签页中打开图片】可查看高清大图

　　下文其他图片同理

　　采集结果

　　采集结果可导入为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

　　教程说明

　　本篇更新时间：2020/5/13 优采云版本：V8.1.8

　　如果因网页改版导致网址或步骤无效，无法搜集到目标数据，请联系官方客服，我们将及时修正。

　　采集步骤

　　步骤一：打开网页

　　步骤二、输入关键词并搜索

　　步骤三、建立【循环-点击元素】，进入每位职位的详情页

　　步骤四、提取职位详情页中的数组

　　步骤五、编辑数组

　　步骤六、创建【循环翻页】，采集多页数据

　　步骤七、启动采集

　　以下为具体步骤：

　　步骤一、打开网页

　　在首页【输入框】中输入目标网址，点击【开始采集】，优采云自动打开网页。

　　打开网页后，弹出【警示内容】弹窗。选中【知道了】按钮，在操作提示框中，点击【点击该按键】将其关闭。

　　特别说明：

　　a.打开网页后，如果开始开始【自动辨识】，请点击【不再手动辨识】或【取消辨识】将其关闭。因为本文不适宜使用【自动辨识】。

　　b. 【自动辨识】适用于手动辨识网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动辨识】教程

　　c. 示例中输入的网址，是上海智联急聘的网址，可依照需求，更换目标城市，得到相关网址。

　　步骤二、输入关键词并搜索

　　1、输入关键词并搜索

　　选中搜索框，在操作提示框中点击【输入文本】，输入要搜索的职位或公司，如【爬虫工程师】、【python工程师】等。

　　选中【搜索】按钮，在操作提示框中点击【点击该元素】，出现搜索结果列表页。

　　2、设置滚动，以加载更多职位列表

　　搜索后，向下滚动页面加载出新的职位列表，在优采云中也需设置滚动。

　　进入【点击元素1】设置页面，点开【页面加载后】，设置【页面加载后向上滚动】，滚动形式为【直接滚动到顶部】，【滚动次数】为4次，【每次间隔】2秒，设置后保存。

　　特别说明：

　　a. 设置中的滚动次数和时间间隔，请依照采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

　　步骤三、建立【循环-点击元素】，进入每位职位的详情页

　　通过以下几步，实现循环点击每位职位链接，进入职位详情页

　　① 选中页面上第1个职位链接

　　② 在红色操作提示框中，点击【选中全部】，以选中全部职位链接

　　③ 点击【循环点击每位元素】，进入第1个职位的详情页

　　特别说明：

　　a. 经过以上连续3步，【循环-点击元素】创建完成。【循环】中的项，对应着页面上所有职位链接。启动采集以后，优采云就会根据循环中的次序依次点击每位职位链接，进入情页，以采集每个职位的具体数据。

　　b.为何通过以上3步，可构建【循环-点击元素】？详情点击查看采集点击多个链接后的详情页数据教程。

　　步骤四、提取详情页中的数组

　　进入详情页后，手动提取我们须要采集的数组。

　　不同类型的数组有不同的提取方法：

　　1、采集文本

　　选中页面中的文本，然后在操作提示框中点击【采集该元素文本】。

　　职位名称、职位薪水、职位描述等文本类型的数组，均可这样提取。

　　2、采集页面网址

　　进入【提取数据】设置页面，点击【+】按钮，选择【添加当前页面信息】-【页面网址】，然后保存

　　步骤五、创建【循环翻页】，采集多页数据

　　1、创建【循环翻页】

　　如果只是采集一页数据，可跳过此步骤。

　　如果须要翻页以采集多页数据：

　　点击规流程图里的【循环列表】，让页面返回到上一级页面。选择页面中的【下一页】按钮，在操作提示上单击【循环点击下一页】，创建【循环翻页】。

　　2、设置滚动

　　【点击翻页】后，也会向上滚动页面加载出新的职位列表，也需设置滚动。

　　进入【点击翻页】设置页面，点开【页面加载后】，设置【页面加载后向上滚动】，滚动形式为【直接滚动到顶部】，【滚动次数】为4次，【每次间隔】2秒，设置后保存。

　　3、修改【循环翻页】的XPath

　　默认的【循环翻页】XPath会在最后一页重复翻页，导致其他关键词未能输入并采集，需更改【循环翻页】XPath。

　　进入【循环翻页】设置页面，修改XPath为：//button[text()="下一页" and not(@disabled)]。

　　特别说明：

　　a. 创建【循环翻页】后，优采云会手动点击【下一页】按钮进行翻页，从第1页，第2页......直到最后1页。如果只需采集特定页的数据，可在优采云中设置循环翻页的次数，详情点击查看翻页以采集多页数据教程。

　　b. 设置中的滚动次数和时间间隔，请依照采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

　　c. 什么是XPath？如何写一条正确的XPath？点击查看XPath学习与实例教程。

　　步骤六、编辑数组

　　点击规流程图里的【提取数据】，让页面返回到职位详情页页面。

　　在【当前数据预览】页面，删除多余数组，修改数组名，移动数组次序等。

　　步骤七、启动采集

　　1、点击【采集】并【启动本地采集】。启动后优采云开始手动采集数据。

　　2、采集完成后，选择合适的导入方法来导入数据。支持导入为Excel，CSV，HTML，数据库等。这里导入为Excel。

　　示例数据：

　　作者：Junjun

0

2020-08-09

关键词自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

【智联招聘】智联招聘职位数据采集

0 个评论

发起人