关键词文章采集器(采集结果采集步骤及步骤介绍-上海怡健医学 )

优采云 发布时间: 2021-10-23 17:12

  关键词文章采集器(采集结果采集步骤及步骤介绍-上海怡健医学

)

  采集场景

  在首页输入职位名称,获取目标职位信息。然后点击职位名称链接,进入职位详情页面,采集该职位的具体信息。

  采集字段

  职位、链接、公司、公司链接、地区、工资、时间、职位信息等字段。

  

  鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图

  这同样适用于下面的其他图片

  采集结果

  采集 结果可以导出为Excel、CSV、HTML、数据库等多种格式。导出到 Excel 示例:

  

  教程说明

  本文制作时间:2020/4/29 优采云版本:V8.1.8

  如因网页改版导致网址或步骤无效,无法采集目标数据,请联系官方客服,我们会及时更正。

  采集步骤

  第一步:打开网页

  步骤 二、 输入 关键词 并搜索

  步骤三、创建【循环列表】,采集作业列表中的所有数据

  Step 四、 点击职位链接,进入详情页,提取字段

  步骤五、创建【循环翻页】,采集多页数据

  步骤六、开始采集

  以下是具体步骤:

  步骤一、打开网页

  在首页【输入框】输入目标网址,点击【开始采集】,优采云会自动打开网页。

  

  特别说明:

  一种。打开网页后,如果开始启动【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。

  湾 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程

  步骤 二、 输入 关键词 并搜索

  1、进入关键词

  选择搜索框,在操作提示框中点击【输入文字】,输入要搜索的职位或公司,如【java】、【ava工程师】等。

  2、点击搜索

  选择【搜索】按钮,在操作提示框中点击【点击此按钮】,会出现搜索结果列表页面。

  

  特别说明:

  一种。例子中输入的关键词是[java],可以根据自己的需要替换。

  湾 如果需要循环多个位置关键词,可以参考教程:批量输入关键词查询,采集查询结果。

  步骤三、创建【循环列表】,采集作业列表中的所有数据

  通过以下4个连续步骤,采集答案列表中的所有数据:

  1、在页面上选择一个职位,在操作提示框中点击最后一个DIV(目的是选择整个职位块,包括所有字段)

  2、点击【选择子元素】

  3、点击【全选】

  4、点击【采集数据】

  

  特别说明:

  一种。为什么要先选职称,再选DIV?因为我们首先选择了一个职位,所以我们不能选择整行职位列表信息。您需要点击最后一个DIV(代表整行作业块)来选择整行作业列表信息。这里涉及到 XPath 的一些知识。点击查看XPath学习和示例教程

  Step 四、 点击职位链接,进入详情页,提取字段

  1、点击职位链接进入详情页

  在当前职位列表(网页红框框内)中,选择职位名称,点击操作提示框中的【点击链接】,自动进入职位详情页面。

  

  特别说明:

  一种。一定要选中当前位置列表中的位置链接并做【点击链接】,否则【点击元素】步骤无法链接到【循环】中的位置列表,会一直重复点击一个位置链接要进入其职位详情页面,不可能依次点击每个帖子链接。

  湾 如何找到当前的工作列表?在【循环列表】中查看当前项目(蓝色背景),然后点击【提取列表数据】,当前作业列表在网页上以红色框框框起来。

  

  2、提取作业信息

  选中一段作业信息,在操作提示框中点击最后一个DIV(代表整个文本块),然后点击【采集此元素文本】,作业信息就会采集向下.

  

  特别说明:

  一种。为什么先选择段落,然后选择 DIV?作业信息格式复杂,不能很好地选择整个作业信息。我们先选择一个段落,然后直接点击最后一个DIV(代表整个位置信息块)来选择位置信息。这里涉及到 XPath 的一些知识。点击查看XPath学习和示例教程

  步骤五、创建【循环翻页】,采集多页数据

  如果只有采集一页数据,可以跳过这一步。

  如需翻页到采集多页数据:点击流程中的【循环列表】,返回列表页面。然后选择页面上的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。

  

  特别说明:

  一种。创建完【循环翻页】后,优采云会自动点击【下一页】按钮进行翻页,从第一页、第二页……一直到最后一页。如果只需要特定页面采集的数据,可以在优采云中设置翻页的周期数。详情请点击查看翻页采集多页数据教程。

  湾 如果搜索结果只有1页,再用【下一页】做【循环翻页】,就会无限循环翻页,重复采集这页数据的问题。需要进入【循环翻页】设置页面,修改XPath为://A[text()="Next Page"],如下图:

  

  步骤六、开始采集

  1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。

  

  特别说明:

  一种。[本地采集]为采集使用自己的电脑,[cloud采集]为优采云提供的云服务器采集,点击进入查看本地采集和cloud采集的详解。

  2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线