关键词自动采集(第一级任务的步骤说明(二):采集内容)

优采云 发布时间: 2021-09-02 04:06

  关键词自动采集(第一级任务的步骤说明(二):采集内容)

  •采集Content:新闻链接、标题、摘要、时间

  在下面输入详细的分步说明。

  1.定义一级任务:设置动作

  1.1 打开网页

  打开采集器数据管理器,进入人民网搜索网站,加载网页。点击浏览器左上角的“+”,进入定义任务状态。

  

  1.2 只标记你想要的内容采集

  虽然一级任务不做实际的爬虫工作,但为了爬虫正常工作,任务中至少需要一个爬取内容。我们在网页上使用“新闻”一词作为抓取内容。

  双击“新闻”,输入如下图所示的字段名和表名。 (可视化标注的详细操作请参考“采集网站数据”)

  

  1.3 设置动作

  这里将重点介绍第一个“输入”动作,第二个动作“点击”。

  1.3.1 第一个动作:输入动作

  在工作台上点击“4”进入“设置动作”,点击“新建”按钮新建动作。

  

  执行后执行:目标任务是二级任务。本例中二级任务的名称为:Tutorial_People's Network Search_Grab

  动作类型:第一个动作是输入,所以选择输入

  Action name:给action起一个名字,方便以后检查,比如:input

  交互位置:这是操作难度。找出动作位置的 xpath 并将其复制到此处。这样爬虫就知道往哪里移动。如何找到一个动作的xpath?

  我们现在要做的是输入动作。交互位置是搜索输入框,在网页上点击,下面的DOM窗口对应一个节点。

  如下图操作,点击“Generate xpath”,因为这个节点有一个非常特殊的id属性,所以选择partial id。

  

  生成xpath后,点击xpath后面的搜索按钮,查看这个xpath对应的节点数。在这个例子中是1/1,表示它只对应一个节点,它是唯一的,可以用来确定动作Location。 (如果是1/2,表示对应两个节点,当前节点就是其中一个,但是在这个例子中,只有一个位置我们需要输入actions,说明这个xpath不适合并且需要单独选择)。确认xpath后,复制到动作设置中。

  

  输入词:输入你要搜索的关键词,例如输入:virus;;racial,表示采集病毒的新闻,然后是采集种的新闻。

  延迟:考虑到网页加载需要时间,最好设置一点延迟时间。此网页加载速度更快,可以设置为 5 秒。

  第一个动作,设置输入动作后,工作台长这个样子:

  

  1.3.2 设置第二个动作:点击动作

  点击新建设置第二个动作:点击动作

  

  如何找到搜索点击动作的xpath?

  

  点击动作设置后,工作台长这个样子:

  

  这样,我们就完成了两个动作的设置,完成了一级任务。

  1.3.3 一级任务测试,保存

  下图不是这个例子的图片,但按钮的位置是一样的。

  

  点击“保存”按钮保存已完成的一级任务

  现在只保存一级任务,不要启动采集,因为我们还没有完成二级任务。

  2. 退出一级任务定义状态

  在定义二级任务之前,必须先退出一级任务定义状态。

  

  3.定义二级任务

  3.1 加载网页并进入定义的任务状态

  在网页上输入关键词,搜索结果出来后,再次点击“+”进入任务定义模式。

  输入任务名称,即在一级任务的动作设置中填写的动作后要执行的任务:Tutorial_人民网搜索_Grab。

  

  3.2 在网页上做采集task

  此页面上的每条新闻都是一个样本。在每个样本中,采集所需的信息包括:标题、内容摘要、链接和时间。限于篇幅,这里就不一一解释了。可以参考教程“采集表数据”。每个新闻条目相当于本教程中的一个产品。如需翻页,请参考教程“翻页设置”。如果想更进一步,请参考教程“Deep采集”了解采集新闻。

  二级任务完成后,测试保存。

  4.开始采集

  对于持续动作的任务采集,只要启动一级任务,爬虫就会自动调用二级任务。

  首先进入任务管理页面。

  

  在任务管理页面,选择一级任务,点击开始,线索数为1(因为本例中一级任务只有1条线索),为了尽快结束采集尽量得到采集的结果,限制翻页,只有采集5页。

  

  

  上图中点击OK后,爬虫会弹出采集窗口,启动采集数据。可以观察到在采集窗口中,搜索词和点击搜索自动加载,搜索结果页面自动加载,采集数据显示在这个页面上。

  采集完成后按照提示点击导出excel数据,然后到二级任务的数据管理中下载数据。

  

  

  所以,流程就是启动一级任务,去二级任务下载数据。

  下图是采集的数据截图。搜索到的关键词默认记录在二级任务结果数据的actionvalue字段中。

  

  第一部分文章:《集搜客网络爬虫核心条款》第二部分文章:“自动点击京东商品规格采集价格数据”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线