【智联招聘】智联招聘职位数据采集

优采云 发布时间: 2020-08-09 07:54

  采集场景

  在智联招聘地区急聘搜索页(), 输入关键词搜索(示例中的搜索关键词为【爬虫工程师】),搜索后得到急聘信息列表页。点击职位链接,进入职位详情页,采集详情页数据。

  采集字段

  职位名称、职位薪水、职位描述、职位链接等。

  

  鼠标放在图片上,右键,选择【在新标签页中打开图片】可查看高清大图

  下文其他图片同理

  采集结果

  采集结果可导入为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

  

  教程说明

  本篇更新时间:2020/5/13 优采云版本:V8.1.8

  如果因网页改版导致网址或步骤无效,无法搜集到目标数据,请联系官方客服,我们将及时修正。

  采集步骤

  步骤一:打开网页

  步骤二、输入关键词并搜索

  步骤三、建立【循环-点击元素】,进入每位职位的详情页

  步骤四、提取职位详情页中的数组

  步骤五、编辑数组

  步骤六、创建【循环翻页】,采集多页数据

  步骤七、启动采集

  以下为具体步骤:

  步骤一、打开网页

  在首页【输入框】中输入目标网址,点击【开始采集】,优采云自动打开网页。

  打开网页后,弹出【警示内容】弹窗。选中【知道了】按钮,在操作提示框中,点击【点击该按键】将其关闭。

  

  特别说明:

  a.打开网页后,如果开始开始【自动辨识】,请点击【不再手动辨识】或【取消辨识】将其关闭。因为本文不适宜使用【自动辨识】。

  b. 【自动辨识】适用于手动辨识网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看【自动辨识】教程

  c. 示例中输入的网址,是上海智联急聘的网址,可依照需求,更换目标城市,得到相关网址。

  

  步骤二、输入关键词并搜索

  1、输入关键词并搜索

  选中搜索框,在操作提示框中点击【输入文本】,输入要搜索的职位或公司,如【爬虫工程师】、【python工程师】等。

  选中【搜索】按钮,在操作提示框中点击【点击该元素】,出现搜索结果列表页。

  

  2、设置滚动,以加载更多职位列表

  搜索后,向下滚动页面加载出新的职位列表,在优采云中也需设置滚动。

  进入【点击元素1】设置页面,点开【页面加载后】,设置【页面加载后向上滚动】,滚动形式为【直接滚动到顶部】,【滚动次数】为4次,【每次间隔】2秒 ,设置后保存。

  

  特别说明:

  a. 设置中的滚动次数和时间间隔,请依照采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看处理滚动加载数据的网页教程

  步骤三、建立【循环-点击元素】,进入每位职位的详情页

  通过以下几步,实现循环点击每位职位链接,进入职位详情页

  ① 选中页面上第1个职位链接

  ② 在红色操作提示框中,点击【选中全部】,以选中全部职位链接

  ③ 点击【循环点击每位元素】,进入第1个职位的详情页

  

  特别说明:

  a. 经过以上连续3步,【循环-点击元素】创建完成。【循环】中的项,对应着页面上所有职位链接。启动采集以后,优采云就会根据循环中的次序依次点击每位职位链接,进入情页,以采集每个职位的具体数据。

  b.为何通过以上3步,可构建【循环-点击元素】?详情点击查看采集点击多个链接后的详情页数据教程。

  步骤四、提取详情页中的数组

  进入详情页后,手动提取我们须要采集的数组。

  不同类型的数组有不同的提取方法:

  1、采集文本

  选中页面中的文本,然后在操作提示框中点击【采集该元素文本】。

  职位名称、职位薪水、职位描述等文本类型的数组,均可这样提取。

  

  2、采集页面网址

  进入【提取数据】设置页面,点击 【+】 按钮,选择【添加当前页面信息】-【页面网址】,然后保存

  

  步骤五、创建【循环翻页】,采集多页数据

  1、创建【循环翻页】

  如果只是采集一页数据,可跳过此步骤。

  如果须要翻页以采集多页数据:

  点击规流程图里的【循环列表】,让页面返回到上一级页面。选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

  

  2、设置滚动

  【点击翻页】后,也会向上滚动页面加载出新的职位列表,也需设置滚动。

  进入【点击翻页】设置页面,点开【页面加载后】,设置【页面加载后向上滚动】,滚动形式为【直接滚动到顶部】,【滚动次数】为4次,【每次间隔】2秒 ,设置后保存。

  

  3、修改【循环翻页】的XPath

  默认的【循环翻页】XPath会在最后一页重复翻页,导致其他关键词未能输入并采集,需更改【循环翻页】XPath。

  进入【循环翻页】设置页面,修改XPath为://button[text()="下一页" and not(@disabled)]。

  

  特别说明:

  a. 创建【循环翻页】后,优采云会手动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在优采云中设置循环翻页的次数,详情点击查看翻页以采集多页数据教程。

  b. 设置中的滚动次数和时间间隔,请依照采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看处理滚动加载数据的网页教程

  c. 什么是XPath?如何写一条正确的XPath?点击查看XPath学习与实例教程。

  步骤六、编辑数组

  点击规流程图里的【提取数据】,让页面返回到职位详情页页面。

  在【当前数据预览】页面,删除多余数组,修改数组名,移动数组次序等。

  

  步骤七、启动采集

  1、点击【采集】并【启动本地采集】。启动后优采云开始手动采集数据。

  

  2、采集完成后,选择合适的导入方法来导入数据。支持导入为Excel,CSV,HTML,数据库等。这里导入为Excel。

  

  示例数据:

  

  作者:Junjun

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线