内容采集器(如何采集网站有会详细信息页面的内容页?就是教程 )
优采云 发布时间: 2021-08-29 03:13内容采集器(如何采集网站有会详细信息页面的内容页?就是教程
)
list content page采集的内容
很多网站都会有这种模式,一个列表页面,点击列表中的一行链接会打开一个详细的信息页面,这个文章就是教你如何采集这种类型的详细信息页面里面的页面数据。
文章入口地址是:
首先打开优采云采集器→点击快速启动→新建任务(高级模式),进入任务配置页面:
选择任务组,自定义任务名称和备注;
上图中配置完成后,选择Next进入流程配置页面,拖一个步骤打开网页进入流程设计
选择在浏览器中打开网页的步骤,在右侧的网页网址中输入网页网址并点击保存,系统会在软件下自动在浏览器中打开相应的网页:
创建一个循环来翻页。在上面的浏览器页面点击下一页按钮,在弹出的对话框中选择重复点击下一页;
翻页循环创建后,点击下图中的保存;
由于如上图我们需要在浏览器中点击电影名称,然后在子页面中提取数据信息,所以需要做一个循环采集list。
点击上图中第一个循环项,在弹出的对话框中选择创建元素列表处理一组元素;
接下来在弹出的对话框中选择添加到列表中
添加第一个循环项后,选择继续编辑列表。
接下来,以同样的方式添加第二个循环项。
当我们添加第二个循环项时,您可以查看上图。此时,页面上的其他元素已经添加。这是因为我们添加了两个具有相似特征的元素,系统会智能地在页面上添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环
经过以上操作,采集list的循环就完成了。系统会在页面右上角显示该页面添加的所有循环项。
因为每个页面都需要循环采集数据,所以我们需要把这个循环列表拖入翻页循环中。
注意流程是从上一页开始执行的,所以这个循环列表需要放在点击翻页之前,否则会漏掉第一页的数据。最终流程图如下所示:
选择上图中第一个循环项,然后选择click元素。输入第一个子链接。
接下来要提取数据字段,在上面的流程设计器中点击提取数据,然后在浏览器中选择要提取的字段,然后在弹出的选择对话框中选择该元素的文本;
完成以上操作后,系统会在页面右上角显示我们要爬取的字段;
接下来在页面上配置其他需要抓取的字段,配置完成后修改字段名称;
修改完成后,点击上图中的保存按钮,然后点击图中的数据字段,可以看到系统会显示最终的采集列表;
点击Next→Next→启动上图中单机采集进入任务检查页面,确保任务正确;
点击启动单机采集,系统会在本地执行采集进程并显示最终的采集结果;