直观:设置优采云采集器ajax延时采集分页列表的方法
优采云 发布时间: 2022-10-28 03:16直观:设置优采云采集器ajax延时采集分页列表的方法
本文将向您介绍如何使用 优采云采集器采集 分页列表页面上的信息,并告诉您有关 ajax 延迟设置。目的是让大家知道如何创建循环翻页和正常的采集网页数据信息。
首先打开优采云采集器→点击快速启动→新建任务进入任务配置页面:
选择任务组,自定义任务名称和备注;
上图配置完成后,选择Next,进入流程配置页面,拖拽一个步骤打开网页进入流程设计器;
选择在浏览器中打开网页的步骤,在右侧页面网址中输入网页网址并点击保存,系统会自动在软件下方的浏览器中打开对应的网页:
下面创建一个循环翻页。在上面的浏览器页面点击下一步按钮,在弹出的对话框中选择循环,点击下一步;
翻页循环创建完成后,点击下图中的保存;
这里的翻页其实涉及到ajax延迟加载。Ajax 异步更新实际上是一种脚本技术。通过在后台与服务器交换少量数据,这意味着可以在不重新加载整个网页的情况下更新网页的某些部分。更新。
Ajax 延迟加载最明显的两个特点是,当点击网页中的某个选项时,URL 不会发生任何变化,然后网页没有完全加载,只是部分发生了变化。如果满足这两个特征,就是ajax页面。或者后面进行采集测试时,进程直接停止或者在运行完之前提示采集已经成功完成,基本就是这个问题造成的。原因是优采云的内置浏览器打开这个网页进行翻页时,由于URL没有变化,只是更新了部分内容,所以无法发出网页变化的信号。收到,导致 采集 停止或 采集 没有可用数据。
因此,如下图所示,需要在翻页点击的高级设置中设置ajax加载。您可以自己估算点击翻页的时间。完成点击步骤大约需要两秒钟。
在上面的浏览器中,可以看到网页都是由同一个区域行组成的。我们需要捕获每个区域行中的数据信息,每个区域块中的格式都是一样的。这时候,我们需要创建一个循环列表来循环遍历每个区域行中的元素。
点击上图中第一行区域,在弹出的对话框中选择创建元素列表,处理一组元素;
接下来,在弹出的对话框中,选择添加到列表
添加第一区域行后,选择继续编辑列表。
接下来以相同的方式添加第二个区域行。
当我们添加第二个区域行时,我们可以看上图。此时,页面中的其他元素被添加。这是因为我们在添加两个具有相似特征的元素,系统会在页面中智能添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环
经过以上操作,循环采集列表就完成了。系统会在页面右上角显示该页面添加的所有循环项。
由于每个页面都需要循环采集数据,所以我们需要将这个循环列表拖入翻页循环中。
注意流程是从上层网页执行的,所以这个循环列表需要放在点击页面的前面,否则会漏掉第一页的数据。最终流程图如下图所示:
接下来,提取数据字段,点击上面流程设计器中的Extract Data,在浏览器中选择要提取的字段,然后在弹出的选择对话框中选择要捕获该元素的文本;
完成上述操作后,系统会在页面右上角显示我们要抓取的字段;
接下来配置页面上需要抓取的其他字段,配置完成后修改字段名称;
修改完成后,点击上图中的保存按钮,然后点击图中的数据字段,可以看到系统会显示最终的采集列表;
点击上图中的Next→Next→Start Standalone采集(调试模式),进入任务检查页面,保证任务的正确性;
点击Start Standalone采集,系统会在本地执行采集进程并显示最终的采集结果;
直观:什么是优采云采集器
优采云采集器 是什么?以下是小编整理的`优采云采集器介绍。我希望它对每个人都有用。更多信息请关注应届毕业生网站。
优采云采集器是一款专业的互联网数据采集、处理、分析、挖掘软件,可以灵活、快速的采集网页中大量的非结构化文本、图片等资源信息,然后通过a 一系列的分析处理,可以准确的挖掘出需要的数据。并且可以选择发布到网站后台、导入数据库或者保存为本地Excel、Word等格式。优采云采集器经过十年的升级更新,积累了大量的用户和良好的口碑,是目前最受欢迎的网络数据采集软件。
优采云采集器V9程序目录
|-配置用户配置保存目录
|-同义词用户同义词保存目录
|-CategoryDirweb 模块 网站 列
--LoginConfig.ini 登录用户帐号信息
--config.db3 任务规则配置文件
|-Data 采集数据保存目录
|-1、2、3等任务采集数据存放目录
|-PageUrl 任务采集URL存放目录
|-Module Web发布模块和数据库发布模块目录
|-Plugins c#和PHP插件存放目录
|-系统系统文件目录
|-Logs 程序错误日志
.exe 优采云采集器启动文件
--CodeEditor.exe 源代码编辑器
--DatabaseManager.exe 数据库发布配置管理工具