网页flash抓取器 70(如何采集单个网页上的自定义任务配置方法?教程 )
优采云 发布时间: 2022-03-03 21:16网页flash抓取器 70(如何采集单个网页上的自定义任务配置方法?教程
)
本教程向您展示如何采集单个网页上的数据,适用于采集某个页面上的数据。只有“打开网页”和“提取数据”两个步骤,这是一个非常简单的流程配置,但在所有流程中都是必不可少的。目的是让大家了解如何创建自定义采集任务,掌握最基本的自定义任务配置方法。
本教程中提到的例子网站的地址是:
例如,示例 网站 是一条新闻消息,我们需要提取这条新闻。
步骤 1 打开网页
登录优采云7.0采集器→点击左上角的“+”图标→选择自定义采集(也可以点击自定义采集在首页“立即使用”)进入任务配置页面。然后输入网址→保存网址,系统会进入工艺设计页面,自动打开之前输入的网址。
打开网页后,我们可以修改任务名称。如果没有,则默认以网页标题命名。在运行 采集 之前可以随时修改任务名称。
步骤 2 提取数据
在网页中,可以直接选择要提取的数据,窗口右上角会有相应的提示。在本教程中,我们以新闻标题、日期和文本的提取为例。请灵活使用,随取随用。
设置好数据提取后,单击保存并开始运行采集。但是此时的字段名是系统自动生成的。为了更好的满足自己的需求,您可以点击右上角的“流程”进入流程页面修改字段名称。先选择要修改的字段名,然后下拉框中会有一个备选的字段名,可以直接选择使用。如果您没有所需的内容,请输入新的字段名称。修改字段名称后,点击“确定”保存。保存并运行 采集。
所有版本都可以运行local采集,Ultimate及以上版本可以运行cloud采集并设置定时cloud采集,但是在运行cloud采集@>之前先运行local采集测试。任务运行完采集后,可以选择Excel、CSV、HTML等格式导出或导入数据库。数据导出后,可以点击链接进入数据存储文件夹查看数据。该文件默认以任务名称命名。