关键词自动采集(网页上的定义第一级任务设置动作说明(一)_采集内容)
优采云 发布时间: 2021-08-30 12:02关键词自动采集(网页上的定义第一级任务设置动作说明(一)_采集内容)
•采集Content:新闻链接、标题、摘要、时间
在下面输入详细的分步说明。
1.定义一级任务:设置动作
1.1 打开网页
打开采集器数据管理器,进入人民网搜索网站,加载网页。点击浏览器左上角的“+”,进入定义任务状态。
1.2 只标记一个想要采集的内容
虽然一级任务不做实际的爬虫工作,但为了爬虫正常工作,任务中至少需要一个爬取内容。我们在网页上使用“新闻”一词作为抓取内容。
双击“新闻”,输入如下图所示的字段名和表名。 (详细视觉标注操作请参考“采集网站数据”)
1.3 设置动作
这里将重点介绍第一个“输入”动作,第二个动作“点击”。
1.3.1 第一个动作:输入动作
在工作台上点击“4”进入“设置动作”,点击“新建”按钮新建动作。
执行后执行:目标任务是二级任务。本例中二级任务的名称为:Tutorial_People's Network Search_Grab
动作类型:第一个动作是输入,所以选择输入
Action name:给action起一个名字,方便以后检查,比如:input
交互位置:这是操作难度。找出动作位置的 xpath 并将其复制到此处。这样爬虫就知道往哪里移动。如何找到一个动作的xpath?
我们现在要做的是输入动作。交互位置是搜索输入框,在网页上点击,下面的DOM窗口对应一个节点。
如下图操作,点击“Generate xpath”,因为这个节点有一个非常特殊的id属性,所以选择partial id。
生成xpath后,点击xpath后面的搜索按钮,查看这个xpath对应的节点数。在这个例子中是1/1,表示它只对应一个节点,它是唯一的,可以用来确定动作Location。 (如果是1/2,表示对应两个节点,当前节点就是其中之一,但是在这个例子中,只有一个位置我们需要做输入动作,说明这个xpath是不适合,需要单独选择)。确认xpath后,复制到动作设置中。
输入词:输入你要搜索的关键词,例如输入:virus;;racial,表示采集病毒的新闻,然后是采集racial的新闻。
延迟:考虑到网页加载需要时间,最好设置一点延迟时间。此网页加载速度更快,可以设置为 5 秒。
第一个动作,设置输入动作后,工作台长这个样子:
1.3.2 设置第二个动作:点击动作
点击新建设置第二个动作:点击动作
如何找到搜索点击动作的xpath?
点击动作设置后,工作台长这个样子:
这样,我们就完成了两个动作的设置,完成了一级任务。
1.3.3 一级任务测试,保存
下图不是这个例子的图片,但按钮的位置是一样的。
点击“保存”按钮保存已完成的一级任务
现在只保存一级任务,不要启动采集,因为我们还没有完成二级任务。
2. 退出一级任务定义状态
在定义二级任务之前,必须先退出一级任务定义状态。
3.定义二级任务
3.1 加载网页并进入定义的任务状态
在网页输入关键词,搜索结果出来后,再次点击“+”进入任务定义模式。
输入任务名称,即在一级任务的动作设置中填写的动作后要执行的任务:Tutorial_人民网搜索_Grab。
3.2 在网页上做采集task
此页面上的每条新闻都是一个样本。在每个样本中,采集所需的信息包括:标题、内容摘要、链接和时间。限于篇幅,这里就不一一解释了。可以参考教程“采集表数据”。每个新闻条目相当于本教程中的一个产品。如需翻页,请参考教程“翻页设置”。如果想更进一步,采集新闻详情请参考教程“Deep采集”。
二级任务完成后,测试保存。
4.开始采集
对于采集连续动作的任务,只需要启动一级任务,爬虫会自动调用二级任务。
首先进入任务管理页面。
在任务管理页面,选择一级任务,点击开始,线索数为1(因为本例中一级任务只有1条线索),为了尽快结束采集尽量得到采集结果,限制翻页,只采集5页。
上图中点击OK后,爬虫会弹出采集窗口,启动采集数据。可以观察到在采集窗口中,搜索词和点击搜索自动加载,搜索结果页面自动加载,采集数据显示在这个页面上。
采集 完成后根据提示点击导出Excel数据,然后进入二级任务的数据管理下载数据。
所以,流程就是启动一级任务,去二级任务下载数据。
下图是采集的数据截图。搜索到的关键词默认记录在二级任务结果数据的actionvalue字段中。
Part 1 文章:“极手客网络爬虫核心条款” Part 2 文章:“自动点击京东商品规格采集价格数据”