Excel教程Excel函数Excel表格制作Excel2010Excel实用技巧Excel视频教程
优采云 发布时间: 2021-02-13 12:07Excel教程Excel函数Excel表格制作Excel2010Excel实用技巧Excel视频教程
•采集内容:新闻链接,标题,摘要,时间
在下面输入详细的分步说明。
1.定义一级任务:设置操作
1. 1打开网页
打开采集器数据管理器,输入《 People's Daily Online》的搜索URL,然后加载该网页。单击浏览器左上角的“ +”,然后进入定义任务的状态。
1. 2只需将内容标记为采集
尽管第一级任务并未执行实际的爬网工作,但为了使爬网程序正常工作,任务中至少需要有一个爬网内容。我们在网页上使用“新闻”一词作为爬网内容。
双击“新闻”,然后输入字段名称和表名称,如下图所示。 (有关视觉标记的详细操作,请参阅“ 采集网页数据”)
1. 3设置动作
这里将重点介绍第一个“输入”操作,然后简要介绍第二个“单击”操作。
1. 3. 1第一个动作:输入动作
在工作台上单击“ 4”以输入“设置动作”,然后单击“新建”按钮以创建新动作。
输入目标任务名称:目标任务是第二级任务,tutorial_renminnet search_crawl
动作类型:第一个动作是输入,因此请选择输入
动作名称:为动作命名,以便以后检查,例如:输入
互动位置:这是操作上的困难。找出动作位置的xpath并将其复制到此处。这样,爬虫便知道要移动到哪里。如何找到动作的xpath?
我们现在要做的是输入操作,交互式位置是搜索输入框,在网页上单击它,下面的DOM窗口对应于一个节点。
操作如下所示,单击“生成xpath”,因为此节点具有非常特殊的id属性,所以请选择“部分id”。
生成xpath后,单击xpath后面的搜索按钮以查看该xpath对应多少个节点。在此示例中,它是1/1,这意味着它仅与一个节点相对应,这是唯一的,可用于确定动作位置。 (如果为1/2,则表示它对应于两个节点,当前节点是其中之一,但是在此示例中,只有一个位置需要输入操作,表明此xpath不适合并且需要单独选择)。确认xpath后,将其复制到操作设置。
输入单词:输入要搜索的关键词,例如:virus ;;。种族,首先是采集病毒新闻,然后是采集种族新闻。
延迟:考虑到网页加载需要花费时间,因此最好设置一些延迟时间。该网页加载速度更快,可以设置为5秒。
设置输入动作后的第一个动作,工作台如下:
1. 3. 2设置第二个操作:单击操作
单击“新建”以设置第二个操作:单击操作
如何找到搜索点击操作的xpath?
设置点击动作后,工作台如下所示:
通过这种方式,我们完成了两个动作的设置并完成了第一级任务。
1. 3. 3一级任务测试,测试中没有问题,请保存。
下面的图片不是本例中的图片,但是按钮的位置相同。
点击“保存”按钮以保存已完成的第一级任务
现在,仅保存第一级任务,不启动采集,因为我们尚未完成第二级任务。
2.退出一级任务定义状态
在定义第二级任务之前,必须首先退出第一级任务定义状态。
3。定义第二级任务
3. 1加载网页并进入定义的任务状态
在网页上输入关键词,搜索结果出来后,再次单击“ +”进入任务定义模式。
输入任务名称,该名称是在填入第一级任务的动作设置中的动作之后要执行的任务:Tutorial_人民网Search_Grab。
3. 2对网页执行采集个任务
此页面上的每个新闻项目都是示例。在每个样本中,要成为采集的信息包括:标题,内容摘要,链接,时间。由于篇幅所限,我这里不再赘述。您可以参考教程“ 采集列表数据”。每个新闻项都相当于本教程中的一个产品。如果需要翻页,请参考教程“翻页设置”。如果您想走得更远,请参考教程[Deep 采集],以获取采集新闻的详细信息。
第二级任务完成后,进行测试并保存。
4.开始采集
对于连续动作任务采集,您只需启动第一级任务,爬网程序就会自动调用第二级任务。
首先,转到任务管理页面。
在任务管理页面上,选择一级任务,单击开始,线索数为1(因为在此示例中一级任务中只有1条线索),以便结束采集尽快获得采集,限制翻页,仅采集 5页的结果。
在上图中单击“确定”后,爬网程序将弹出采集窗口并启动采集数据。可以看到,在采集窗口中,将自动加载搜索词并单击以进行搜索,自动加载搜索结果页面,并且该页面上的数据为采集。
完成采集后,按照提示单击“导出Excel数据”,然后转到第二级任务的数据管理以下载数据。
因此,该过程是启动第一级任务,然后转到第二级任务以下载数据。
下图是采集中数据的屏幕截图。默认情况下,搜索到的关键词记录在第二级任务结果数据的actionvalue字段中。