预嗅探ForeSpider教程: 链接提取

优采云 发布时间: 2020-08-07 12:15

  今天,编辑器在预嗅探ForeSpider采集过程中为您带来了链接提取操作中的一系列知识点. 主要内容有: 如何关联模板,如何判断模板关联是否正确,选择链接类型以及三种过滤方式. 具体内容如下:

  一个,如何关联模板

  “链接提取”提取链接后,您需要采集这些链接所在的页面. 从这些链接中,我们选择其中一个作为下一个模板的示例地址. 通过关联的模板,可以将两个模板连接起来以实现页面跳转.

  软件中模板的关联关系与网页中链接跳转的关联关系相同,因此可以完全采集数据.

  关联方法如下:

  ①自动关联: 该软件将根据用户创建的模板帮助用户自动关联.

  ②手动关联: 用户可以在链接提取节点上手动关联.

  

  [关联模板]

  二,如何判断模板关联是否正确

  ①软件中模板的关联关系与网页中的链接跳转相同. 模板一的示例地址为:

  

  [关联模板]

  ②通过模板1的样本地址,单击模板1中的任何链接以进入需要采集数据的页面. 指向此页面的链接是模板2的示例地址.

  

  [模板一地址]

  ③因此,此时,模板一中的链接提取需要将模板二与之关联.

  

  [模板两个地址]

  三,如何选择链接类型

  链接类型可以分为href和src.

  1.href

  默认选项. 适用于超链接,按钮和CSS文件.

  2.src

  适用于图片/视频/音频/资源文件/ JS文件等

  四种过滤方法

  过滤器方法1: 智能过滤器

  智能过滤可以一键过滤掉具有相同链接地址模式的链接. 适用于大多数情况,例如不正确的过滤,您可以使用第三种方法: 地址/标题过滤.

  操作方法如下:

  ①在链接提取节点中,按Ctrl +鼠标左键,在内置浏览器中单击要获取的链接,然后单击“智能筛选器”按钮.

  ②单击软件右上角的“集合预览”按钮,查看过滤是否完成.

  过滤方法二: 定位过滤器

  定位过滤是通过内置的浏览器进行定位,适用于所需链接集中在较小区域的情况.

  操作方法如下:

  ①在链接提取节点中,按Ctrl键并单击内置浏览器(以展开选择区域并按Shift),选择所需链接的区域,然后单击``确认选择''按钮.

  ②单击软件右上角的“集合预览”按钮,查看过滤是否完成.

  过滤方法三: 地址/标题过滤

  为了从提取的链接中删除不相关的链接,有两种具有相同配置的过滤方法.

  (1)地址过滤: 通过url地址规则过滤不相关的链接.

  (2)标题过滤: 根据链接标题的规则过滤不相关的链接.

  ①地址(标题)过滤节点的配置内容

  

  ②过滤字符串规则的说明

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线