关键词采集词(网页上的定义第一级任务设置动作说明(一)_采集内容)

优采云 发布时间: 2021-11-17 13:05

  关键词采集词(网页上的定义第一级任务设置动作说明(一)_采集内容)

  •采集内容:新闻链接、标题、摘要、时间

  在下面输入详细的步骤描述。

  1. 定义第一级任务:设置动作

  1.1 打开网页

  打开采集器数据管理器,输入人民网搜索网址,加载网页。点击浏览器左上角的“+”,进入定义任务状态。

  

  1.2 只标记一个你想要采集的内容

  一级任务虽然不做实际的爬取工作,但是为了让爬虫正常工作,任务中至少需要有一个爬取内容。我们在网页上使用“新闻”一词作为抓取内容。

  双击“新闻”,输入如下图所示的字段名和表名。(视觉标记的详细操作请参考“采集网页数据”)

  

  1.3 设置动作

  这里我们主要关注第一个“输入”动作,第二个动作“点击”。

  1.3.1 第一个动作:输入动作

  在工作台上点击“4”进入“设置动作”,点击“新建”按钮新建一个动作。

  

  执行后执行:目标任务是二级任务。本例中二级任务名称为:教程_人民网搜索_Grab

  动作类型:第一个动作是输入,所以选择输入

  动作名称:给动作起个名字,方便以后检查,如:输入

  交互位置:这是操作的难点。找出动作位置的 xpath 并复制到这里。这样爬虫就知道往哪里移动。如何找到动作的xpath?

  我们现在要做的是输入动作。交互位置是搜索输入框,在网页上点击,下方的DOM窗口对应一个节点。

  如下图操作,点击“Generate xpath”,因为这个节点有一个非常特殊的id属性,所以选择partial id。

  

  生成xpath后,点击xpath后面的搜索按钮,查看这个xpath对应的节点数。本例中为1/1,表示它只对应一个节点,并且是唯一的,可以用来判断动作的位置。(如果是1/2,表示对应两个节点,当前节点就是其中之一,但是在这个例子中,只有一个位置我们需要输入actions,说明这个xpath不适合并且需要单独选择)。确认xpath后,将其复制到操作设置中。

  

  输入单词:输入你要搜索的关键词,例如输入:virus;; 种族,这意味着首先采集 病毒新闻,然后是采集 种族新闻。

  延迟:考虑到加载网页所需的时间,最好设置一点延迟时间。这个网页加载速度更快,可以设置为5s。

  设置输入动作后的第一个动作在工作台上看起来像这样:

  

  1.3.2 设置第二个动作:点击动作

  点击新建设置第二个动作:点击动作

  

  如何找到搜索点击动作的xpath?

  

  单击操作设置后,工作台如下所示:

  

  这样,我们就完成了两个动作的设置,完成了一级任务。

  1.3.3 一级任务测试,保存

  下图不是这个例子的图片,但是按钮的位置是一样的。

  

  点击“保存”按钮保存已完成的一级任务

  现在,只保存一级任务,不要启动采集,因为我们还没有完成二级任务。

  2. 退出一级任务定义状态

  在定义二级任务之前,必须先退出一级任务定义状态。

  

  3.定义二级任务

  3.1 加载网页并进入定义的任务状态

  在网页上输入关键词,搜索结果出来后,再次点击“+”进入任务定义模式。

  输入任务名称,在一级任务的动作设置中填写动作后要执行的任务:教程_人民网搜索_Grab。

  

  3.2 对网页做采集任务

  此网页上的每条新闻都是一个样本。在每个样本中,要成为采集的信息包括:标题、内容摘要、链接和时间。限于篇幅,这里就不一一解释了。可以参考教程“采集List Data”。每个新闻条目都相当于本教程中的一个产品。如需翻页,请参考教程“翻页设置”。采集新闻详情请参考教程《深入采集》。

  二级任务完成后,测试保存。

  4.开始采集

  对于连续动作任务采集,只需启动一级任务,爬虫会自动调用二级任务。

  首先,进入任务管理页面。

  

  在任务管理页面,选择一级任务,点击开始,线索数为1(因为本例中一级任务只有1条线索),以结束采集为尽快得到采集的结果,有限翻页,只有采集5页。

  

  

  上图中点击OK后,爬虫会弹出采集窗口,启动采集数据。可以观察到,在采集窗口中,搜索词和点击搜索自动加载,搜索结果页面自动加载,该页面的数据为采集。

  采集 完成后根据提示点击导出Excel数据,然后进入二级任务的数据管理下载数据。

  

  

  因此,流程是启动一级任务,到二级任务下载数据。

  下图是来自采集的数据截图。搜索到的关键词默认记录在二级任务结果数据的actionvalue字段中。

  

  第一部分文章:《极速客网络爬虫的核心名词》第二部分文章:《自动点击京东商品规格采集价格数据》

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线