全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

关键词自动采集(网页上的定义第一级任务设置动作说明(一)_采集内容)

优采云发布时间: 2021-08-30 12:02

　　关键词自动采集(网页上的定义第一级任务设置动作说明(一)_采集内容)

　　•采集Content：新闻链接、标题、摘要、时间

　　在下面输入详细的分步说明。

　　1.定义一级任务：设置动作

　　1.1 打开网页

　　打开采集器数据管理器，进入人民网搜索网站，加载网页。点击浏览器左上角的“+”，进入定义任务状态。

　　

　　1.2 只标记一个想要采集的内容

　　虽然一级任务不做实际的爬虫工作，但为了爬虫正常工作，任务中至少需要一个爬取内容。我们在网页上使用“新闻”一词作为抓取内容。

　　双击“新闻”，输入如下图所示的字段名和表名。（详细视觉标注操作请参考“采集网站数据”）

　　

　　1.3 设置动作

　　这里将重点介绍第一个“输入”动作，第二个动作“点击”。

　　1.3.1 第一个动作：输入动作

　　在工作台上点击“4”进入“设置动作”，点击“新建”按钮新建动作。

　　

　　执行后执行：目标任务是二级任务。本例中二级任务的名称为：Tutorial_People's Network Search_Grab

　　动作类型：第一个动作是输入，所以选择输入

　　Action name：给action起一个名字，方便以后检查，比如：input

　　交互位置：这是操作难度。找出动作位置的 xpath 并将其复制到此处。这样爬虫就知道往哪里移动。如何找到一个动作的xpath？

　　我们现在要做的是输入动作。交互位置是搜索输入框，在网页上点击，下面的DOM窗口对应一个节点。

　　如下图操作，点击“Generate xpath”，因为这个节点有一个非常特殊的id属性，所以选择partial id。

　　

　　生成xpath后，点击xpath后面的搜索按钮，查看这个xpath对应的节点数。在这个例子中是1/1，表示它只对应一个节点，它是唯一的，可以用来确定动作Location。（如果是1/2，表示对应两个节点，当前节点就是其中之一，但是在这个例子中，只有一个位置我们需要做输入动作，说明这个xpath是不适合，需要单独选择）。确认xpath后，复制到动作设置中。

　　

　　输入词：输入你要搜索的关键词，例如输入：virus;;racial，表示采集病毒的新闻，然后是采集racial的新闻。

　　延迟：考虑到网页加载需要时间，最好设置一点延迟时间。此网页加载速度更快，可以设置为 5 秒。

　　第一个动作，设置输入动作后，工作台长这个样子：

　　

　　1.3.2 设置第二个动作：点击动作

　　点击新建设置第二个动作：点击动作

　　

　　如何找到搜索点击动作的xpath？

　　

　　点击动作设置后，工作台长这个样子：

　　

　　这样，我们就完成了两个动作的设置，完成了一级任务。

　　1.3.3 一级任务测试，保存

　　下图不是这个例子的图片，但按钮的位置是一样的。

　　

　　点击“保存”按钮保存已完成的一级任务

　　现在只保存一级任务，不要启动采集，因为我们还没有完成二级任务。

　　2. 退出一级任务定义状态

　　在定义二级任务之前，必须先退出一级任务定义状态。

　　

　　3.定义二级任务

　　3.1 加载网页并进入定义的任务状态

　　在网页输入关键词，搜索结果出来后，再次点击“+”进入任务定义模式。

　　输入任务名称，即在一级任务的动作设置中填写的动作后要执行的任务：Tutorial_人民网搜索_Grab。

　　

　　3.2 在网页上做采集task

　　此页面上的每条新闻都是一个样本。在每个样本中，采集所需的信息包括：标题、内容摘要、链接和时间。限于篇幅，这里就不一一解释了。可以参考教程“采集表数据”。每个新闻条目相当于本教程中的一个产品。如需翻页，请参考教程“翻页设置”。如果想更进一步，采集新闻详情请参考教程“Deep采集”。

　　二级任务完成后，测试保存。

　　4.开始采集

　　对于采集连续动作的任务，只需要启动一级任务，爬虫会自动调用二级任务。

　　首先进入任务管理页面。

　　

　　在任务管理页面，选择一级任务，点击开始，线索数为1（因为本例中一级任务只有1条线索），为了尽快结束采集尽量得到采集结果，限制翻页，只采集5页。

　　

　　

　　上图中点击OK后，爬虫会弹出采集窗口，启动采集数据。可以观察到在采集窗口中，搜索词和点击搜索自动加载，搜索结果页面自动加载，采集数据显示在这个页面上。

　　采集完成后根据提示点击导出Excel数据，然后进入二级任务的数据管理下载数据。

　　

　　

　　所以，流程就是启动一级任务，去二级任务下载数据。

　　下图是采集的数据截图。搜索到的关键词默认记录在二级任务结果数据的actionvalue字段中。

　　

　　Part 1 文章：“极手客网络爬虫核心条款” Part 2 文章：“自动点击京东商品规格采集价格数据”

0

2021-08-30

关键词自动采集

0 个评论

要回复文章请先登录或注册

视
频
教
程

在
线
客
服

官方客服QQ群

在
线
客
服