内容采集(流程图模式中支持两种深入采集的方式,第一种和智能模式相同 )
优采云 发布时间: 2021-10-24 03:15内容采集(流程图模式中支持两种深入采集的方式,第一种和智能模式相同
)
在流程图模式下,有两种方法可以转到采集。第一个与智能模式相同。点击深度采集按钮或链接进入深度采集;二是点击页面元素,然后按照软件提示深入采集。
第二种方法是第一种方法的补充,主要针对第一种方法不支持的一些场景,包括:
(1) 列表页中没有链接到详情页,点击列表页中详情页的标题后,打开的详情页与列表页URL相同
(2) 列表页中没有详情页的链接,点击列表页的详情页标题后,原来的页面会弹出一个新窗口。详情页的内容在弹窗需要手动关闭弹窗才能查看下一个详情页内容
下面我们分别介绍两个深入的采集设置程序。
第一种:点击深度采集按钮或链接进入深度采集
以采集列表页后的常规任务为例,深入采集按钮。在数据提取组件的设置窗口中,点击深度采集按钮,默认打开第一个详情页链接,如下图:
如果有多个链接字段,可以选择其中一个链接字段,然后点击深层采集按钮。
如果我们在没有选择链接字段的情况下点击深度采集按钮,软件会给出操作提示,需要选择其中一个链接字段去深度采集,如下图:
如果第一个链接是广告链接,或者不同详情页的内容可能不同,且第一个链接的详情页内容不是最完整的,我们可以直接点击链接字段中的任意链接进行更深入采集@的设置>。
第二种:点击页面元素,根据软件提示采集
以采集列表页后的常规任务为例。完成列表页面采集的内容后,点击列表中的元素,如下图:
在提示框中点击“依次点击所有相似元素”,实现深入采集。
无论哪种方式,最终的组件结构如下图所示: