自动采集器怎么用(页面模式分为列表模式和单条模式的操作方法介绍)

优采云 发布时间: 2022-04-13 01:18

  自动采集器怎么用(页面模式分为列表模式和单条模式的操作方法介绍)

  页面模式分为列表模式和单一模式,也就是我们在采集页面时提取页面信息的方式。

  创建任务时,首页默认为列表模式,深入采集的页面默认为单人模式。当然也可以修改页面模式,如下图:

  

  列表模式

  当我们采集页面时,页面上的数据是分片出现的,我们可能需要采集多条数据,所以我们一般采用列表的方式来抓取页面上的所有数据条目。在列表模式操作中,我们会自动分析页面,达到预测页面的目的。下面将详细介绍具体情况。

  

  选择

  在列表模式的菜单中,我们可以看到【选择】选项。该选项为占位符操作,即点击此菜单后,我们不对页面进行任何操作,不会自动分析页面,只是选择当前页面模式选择为列表模式,比如指定一个列表等等,都需要手动完成。

  自动识别

  页面内容的自动识别主要针对列表模式的情况。通过该算法,可以识别出可能是列表的数据,提取出字段。自动识别不能完全识别所有的列表和数据。这时,我们需要手动进行设置。

  注意:自动识别会删除所有当前设置的字段,并自动生成新的字段。生成新字段后,无法恢复原来的字段设置。

  选择页面列表

  通过选择您认为是列表的两个元素来手动选择列表,如下图所示:

  

  在第一个列表中选择一个元素后,在第二个列表中进行元素选择:

  

  全部完成后,程序会选择两次元素,比较两个列表中的元素,计算列表,然后自动分析字段,如下图:

  

  注意:选择列表后,也会进行自动分析,原来的字段会被清空,清空后无法恢复

  编辑 XPath

  一般情况下,自动识别和手动选择列表都可以完成你的列表选择,但在特殊情况下,无法完美获取列表。这时候我们就需要手动操作了。这里我们举个例子。

  和讯滚动新闻

  我们用Chrome浏览器打开这个网站,如下图:

  

  我们要采集红框中的内容。首先,我们创建一个任务并自动分析收据,如下图:

  

  通过上图我们发现自动识别根本无法识别,为什么自动识别不能完成识别呢?图片中的多条数据明显是条状呈现的。实际上,自动识别是通过比较相似的项目来完成的。如果同时有多个相似项目或者不能完全分类,则无法判断自动识别,所以没有识别到​​数据。

  由于自动识别不起作用,我们来看看手动选择列表,如下图:

  

  在手动选择列表中,我们看到虽然获取了内容,但只是所有列表的一部分,无法完整获取所有数据。这不是我们想要的结果。我们应该做什么?此时,[Edit XPath] 菜单开始发挥作用。

  首先,我们通过Chrome的开发者工具来分析一下这个网站,看看为什么我们无法获取到数据:

  

  

  通过上面两张图的对比发现,所有的信息块都是通过嵌套实现的,根本无法区分每条信息。但是我们可以看到的一点是,所有的信息都收录在一个大的 Ul 标签中,而每一条信息都收录在 Ul 标签下的 li 中。知道了这一点,我们先尝试获取Ul标签的XPath,如下图:

  

  通过Chrome的开发工具,我们得到了ul的XPath //*[@id=”immeList”]/ul

  注意:Chrome开发者工具获取的XPath路径可能并不完全适合采集器使用,特殊情况会有所不同,因为智网采集器使用的是Gecko核心浏览器,有一些 网站 将是特定于浏览器的,并且所有生成的路径都会不同。

  既然我们得到了新闻列表所在block的XPath数据,那么我们如何得到每个数据所在的具体block呢?

  我们继续观察上面两张图,可以发现每个条目的数据都收录在 li 标签中,那么是否可以通过 li 来标记区块数据呢?让我们尝试一下并填写[Edit XPath]。li 的 XPath 用作列表,如下所示:

  

  保存后会根据输入的XPath自动分析,结果如下:

  

  看到上图显示的内容正是我们想要的列表结果,数据也是我们想要的数据,所以我们基本完成了这个网站的采集脚本任务,接下来-up 直接是采集数据没了,这里就不介绍了。

  每页的最大 采集 条目数

  此选项指定列表模式下页面中 采集 条目的数量。为什么需要设置这个选项?因为有些内容每天有固定的更新次数,其实不用采集再去,只要采集之前的固定次数就够了,所以我们设置< @采集 entry 可以达到这个要求。

  单模

  单挑模式选择后不会自动分析。主要目的是被 采集 页面上的一条数据使用。从列表模式切换到单项模式后,原创数据会被清除,所以要注意这一点。

  设置单一模式后,需要操作【添加字段】-【选择元素】。如何使用该字段将在后面的教程中详细介绍,这里不再过多解释。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线