[流程图模式]如何从网站上的多个关键字采集数据
优采云 发布时间: 2020-08-08 20:41单击此处了解有关如何正确输入URL的信息.
2. 创建一个新的流程图模式采集任务
您可以直接在软件上创建新的采集任务,也可以通过导入规则来创建任务.
单击此处以了解如何导入和导出采集规则.
第2步: 配置采集规则
1. 设置多个关键字循环任务
在以流程图模式输入URL以创建新任务后,我们单击搜索框,然后在左上角出现的操作提示框中输入要采集的文本.
单击此处以了解有关输入文本组件的更多信息.
由于需要输入多个关键字的数据,因此选择单击操作框上的批输入文本按钮.
然后选择分批输入单个文本.
然后在弹出的文本列表中输入我们需要设置的文本,在这里我们输入关键字“设置”,“集合”和“数据”.
点击“确定”按钮后,软件将自动生成一个重复出现的关键字列表.
然后,我们单击页面上的搜索按钮,然后在操作框中选择“单击此元素一次”按钮以跳转到搜索结果页面.
2,设置提取字段数据
输入多个关键字并设置循环后,我们设置要提取的字段数据,单击网页上的字段,然后在左上角的操作提示框中选择提取所有元素. 然后,软件将自动识别分页,并且用户将按照软件提示设置分页.
然后我们可以在此基础上设置采集字段,用户可以根据需要进行设置.
有关更多详细信息,请参阅以下教程:
如何配置采集字段
3. 设置深度采集
如果需要从详细信息页面采集数据,可以使用深度采集功能.
有关更多详细信息,请参阅以下教程:
如何实现深度采集
4. 设置详细信息页面数据
详细信息页面的采集方法与单个页面类型的采集方法相同. 我们在页面上单击需要采集的数据,然后在操作提示框中单击“从此元素提取数据”按钮,然后数据设置可以引用列表页面上的设置.
有关更多详细信息,请参阅以下教程:
如何采集单一页面类型的网页
5. 完整的组件图
第3步: 设置并启动采集任务
1. 启动采集任务
单击“开始采集”按钮,在弹出的启动设置页面中设置一些高级设置,包括“定时启动,防阻塞,自动导出,文件下载,加速引擎,重复数据删除和开发人员功能”设置”. 以上功能未在此操作中使用,只需单击开始按钮即可开始采集.
单击此处以了解有关计划启动的更多信息.
单击此处以了解有关自动导出的更多信息.
单击此处以了解有关如何下载图片的更多信息.
[提醒]免费版可以使用非定期定时采集功能,下载图片功能是免费的;专业版及以上的用户可以使用定时启动功能;旗舰版用户可以使用自动导出功能和加速引擎功能.
2,运行任务以提取数据
任务开始后,将自动采集数据. 我们可以从界面直观地看到程序的运行过程和采集结果,采集结束后会有提醒.
第4步: 导出和查看数据
数据采集完成后,我们可以查看和导出数据. 优采云采集器支持多种导出方式(手动导出到本地,手动导出到数据库,自动发布到数据库,自动发布到网站)和导出文件格式(EXCEL,CSV,HTML和TXT),还支持导出特定数量的项目. 您可以在数据中选择要导出的项目数,然后单击“确认导出”.