网页文章自动采集(如何使用优采云采集器采集这种类型网页里面详细信息页面数据 )
优采云 发布时间: 2022-01-31 14:28网页文章自动采集(如何使用优采云采集器采集这种类型网页里面详细信息页面数据
)
很多网站都有这个模式,一个列表页面,点击列表中的一行链接会打开一个详细的信息页面,本片文章会教你如何使用优采云采集器采集此类网页中详细信息页面的数据。
首先打开优采云采集器→点击快速启动→新建任务进入任务配置页面:
选择任务组,自定义任务名称和备注;
上图配置完成后,选择Next,进入流程配置页面,拖拽一个步骤打开网页进入流程设计器;
选择在浏览器中打开网页的步骤,在右侧页面网址中输入网页网址并点击保存,系统会自动在软件下方的浏览器中打开对应的网页:
选择在浏览器中打开网页的步骤,在右侧页面网址中输入网页网址并点击保存,系统会自动在软件下方的浏览器中打开对应的网页:
由于我们需要在上面的浏览器中循环点击电影名称,然后提取子页面中的数据信息,所以我们需要制作一个循环的采集列表。
点击上图中的第一个循环项,在弹出的对话框中选择创建元素列表来处理一组元素;
接下来,在弹出的对话框中,选择添加到列表
添加第一个循环项目后,选择继续编辑列表。
接下来以相同的方式添加第二个循环项目。
当我们添加第二个区域块时,我们可以看上图,此时页面中的其他元素都添加了。这是因为我们在添加两个具有相似特征的元素,系统会在页面中智能添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环
经过以上操作,循环采集列表就完成了。系统会在页面右上角显示该页面添加的所有循环项。
选择上图中的第一个循环项,然后选择click元素。输入第一个子链接。
以下是数据字段的提取。在浏览器中选择需要提取的字段,然后在弹出的选择对话框中选择抓取该元素的文本;
完成上述操作后,系统会在页面右上角显示我们要抓取的字段;
接下来配置页面上需要抓取的其他字段,配置完成后修改字段名称;
修改完成后,点击上图中的保存按钮,然后点击图中的数据字段,可以看到系统会显示最终的采集列表;
点击上图中的Next→Next→Start Standalone采集(调试模式),进入任务检查页面,保证任务的正确性;
点击Start Standalone采集,系统会在本地执行采集进程并显示最终的采集结果;
如果我们需要导出最终的采集数据信息,点击下图中的导出按钮,选择要导出的文件类型,系统会提示保存路径,选择保存路径,系统会自动导出文件。