手动添加多级URL填写链接地址规则
优采云 发布时间: 2020-08-08 20:01一个. 原理
手动填写链接地址规则的原理是编写一个脚本规则以匹配源代码中的内容并获取您自己设置的参数.
使用常规解释
[参数]
用于匹配准备提取信息的标签. 例如,您想在以下代码中提取并合并某种格式. 采取代码“ mClk(this,'108484','134217','168475','1');”以提取并合并新的地址格式为例.
“ mClk(this,'[parameter]','[parameter]','[parameter]','1');”,按顺序,108484参数是参数1,依此类推. 所需的实际地址是以下地址格式: bbs / read.php?id = [parameter 1]&sort = [parameter 3]&action = [parameter 2],上面代码中的3个参数和下面地址中的id, soft和action参数应对应于相应的值,并且顺序不应颠倒. 这会合并为新的地址格式.
(*)
(*)是通配符,可以表示优采云采集器中起始地址的页数,并且可以匹配标签规则,模块或其他设置中的任何字符串,例如(*)可以匹配xxx字符字符串也可以与yy字符串匹配.
二,使用场合和使用方法
1. 通常,可以手动获取可以自动获取URL链接的网页. 手动填写链接地址的灵活性较高!
2. 如果网页源代码中的内容页面链接未标准化,或者URL中没有链接,则可以使用手动填写链接地址规则.
插图:
示例1,例如ajax链接
通过查看源代码,我们可以看到URL链接不是标准化的,因此链接地址不能直接用于获取URL.
解决方案:
脚本规则:
实际链接: [参数1] / [参数2] / [参数3] /
示例2: 例如,列表页面中内容页面只有一个ID,而没有其他URL信息,因此也可以通过手动填写链接地址规则来获取.
列表页面网址:
内容页面网址:
检查源代码表明URL链接也不规则.
解决方案:
脚本规则: |(*),[参数],
实际链接: [参数1]