网页源代码中的内容页链接和使用方法(一)
优采云 发布时间: 2021-08-08 19:27网页源代码中的内容页链接和使用方法(一)
一、principle
手动填写链接地址规则的原理是编写脚本规则匹配源代码中的内容,获取自己设置的参数。
常用说明
[参数]
用于匹配准备提取信息的标签标签。比如你想在下面的代码中提取并组合某种格式。取代码“mClk(this,'108484','134217','168475','1');”以提取合并新地址格式为例。
"mClk(this,'[参数]','[参数]','[参数]','1');",依次为108484参数为参数1,以此类推。实际需要的地址如下地址格式:bbs/read.php?id=[参数1]&sort=[参数3]&action=[参数2],上面代码中的3个参数和下面地址中的id, soft 和 action 参数要对应对应的值,顺序不能颠倒。这被组合成一种新的地址格式。
(*)
(*)是通配符,优采云采集器可以表示起始地址的页数,可以匹配表示标签规则、模块或其他设置中的任意字符串,如(*)可以匹配到 xxx 字符串也可以匹配到 yy 字符串。
二、使用场合和使用方法
1、 一般可以自动获取URL链接的网页可以手动获取。手动填写链接地址的灵活性比较高!
2、网页源代码中的内容页链接不规范,或者URL中没有链接时,可以手动填写链接地址规则。
插图:
示例一、如ajax 链接
查看源码发现URL链接不规范,无法通过链接地址直接获取URL。
解决方案:
脚本规则:
实际链接:[参数1]/[参数2]/[参数3]/
例如二、例如列表页中只有一个内容页的ID,没有其他的URL信息,所以也可以通过手动填写链接地址规则来获取。
查看源码发现网址链接也是不规则的。
解决方案:
脚本规则:|(*),[参数],
实际链接:[参数 1]