网页源代码中的内容页链接和使用方法(一)

优采云 发布时间: 2021-08-08 19:27

  网页源代码中的内容页链接和使用方法(一)

  一、principle

  手动填写链接地址规则的原理是编写脚本规则匹配源代码中的内容,获取自己设置的参数。

  常用说明

  [参数]

  用于匹配准备提取信息的标签标签。比如你想在下面的代码中提取并组合某种格式。取代码“mClk(this,'108484','134217','168475','1');”以提取合并新地址格式为例。

  "mClk(this,'[参数]','[参数]','[参数]','1');",依次为108484参数为参数1,以此类推。实际需要的地址如下地址格式:bbs/read.php?id=[参数1]&sort=[参数3]&action=[参数2],上面代码中的3个参数和下面地址中的id, soft 和 action 参数要对应对应的值,顺序不能颠倒。这被组合成一种新的地址格式。

  (*)

  (*)是通配符,优采云采集器可以表示起始地址的页数,可以匹配表示标签规则、模块或其他设置中的任意字符串,如(*)可以匹配到 xxx 字符串也可以匹配到 yy 字符串。

  二、使用场合和使用方法

  1、 一般可以自动获取URL链接的网页可以手动获取。手动填写链接地址的灵活性比较高!

  2、网页源代码中的内容页链接不规范,或者URL中没有链接时,可以手动填写链接地址规则。

  插图:

  示例一、如ajax 链接

  查看源码发现URL链接不规范,无法通过链接地址直接获取URL。

  

  解决方案:

  

  脚本规则:

  实际链接:[参数1]/[参数2]/[参数3]/

  例如二、例如列表页中只有一个内容页的ID,没有其他的URL信息,所以也可以通过手动填写链接地址规则来获取。

  查看源码发现网址链接也是不规则的。

  

  解决方案:

  

  脚本规则:|(*),[参数],

  实际链接:[参数 1]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线