预嗅探ForeSpider教程: 链接提取
优采云 发布时间: 2020-08-07 12:15今天,编辑器在预嗅探ForeSpider采集过程中为您带来了链接提取操作中的一系列知识点. 主要内容有: 如何关联模板,如何判断模板关联是否正确,选择链接类型以及三种过滤方式. 具体内容如下:
一个,如何关联模板
“链接提取”提取链接后,您需要采集这些链接所在的页面. 从这些链接中,我们选择其中一个作为下一个模板的示例地址. 通过关联的模板,可以将两个模板连接起来以实现页面跳转.
软件中模板的关联关系与网页中链接跳转的关联关系相同,因此可以完全采集数据.
关联方法如下:
①自动关联: 该软件将根据用户创建的模板帮助用户自动关联.
②手动关联: 用户可以在链接提取节点上手动关联.
[关联模板]
二,如何判断模板关联是否正确
①软件中模板的关联关系与网页中的链接跳转相同. 模板一的示例地址为:
[关联模板]
②通过模板1的样本地址,单击模板1中的任何链接以进入需要采集数据的页面. 指向此页面的链接是模板2的示例地址.
[模板一地址]
③因此,此时,模板一中的链接提取需要将模板二与之关联.
[模板两个地址]
三,如何选择链接类型
链接类型可以分为href和src.
1.href
默认选项. 适用于超链接,按钮和CSS文件.
2.src
适用于图片/视频/音频/资源文件/ JS文件等
四种过滤方法
过滤器方法1: 智能过滤器
智能过滤可以一键过滤掉具有相同链接地址模式的链接. 适用于大多数情况,例如不正确的过滤,您可以使用第三种方法: 地址/标题过滤.
操作方法如下:
①在链接提取节点中,按Ctrl +鼠标左键,在内置浏览器中单击要获取的链接,然后单击“智能筛选器”按钮.
②单击软件右上角的“集合预览”按钮,查看过滤是否完成.
过滤方法二: 定位过滤器
定位过滤是通过内置的浏览器进行定位,适用于所需链接集中在较小区域的情况.
操作方法如下:
①在链接提取节点中,按Ctrl键并单击内置浏览器(以展开选择区域并按Shift),选择所需链接的区域,然后单击``确认选择''按钮.
②单击软件右上角的“集合预览”按钮,查看过滤是否完成.
过滤方法三: 地址/标题过滤
为了从提取的链接中删除不相关的链接,有两种具有相同配置的过滤方法.
(1)地址过滤: 通过url地址规则过滤不相关的链接.
(2)标题过滤: 根据链接标题的规则过滤不相关的链接.
①地址(标题)过滤节点的配置内容
②过滤字符串规则的说明