js提取指定网站内容-苏州安嘉匹配率500%
优采云 发布时间: 2022-09-08 19:16js提取指定网站内容-苏州安嘉匹配率500%
js提取指定网站内容
一、前言提取是api调用的最基本的一步。在应用程序中,经常需要读取网页,或者更有可能的是对网页进行页面上的内容提取。采用调用javascript的方式进行提取,javascript是从网页中获取动态响应,从而能够从javascript请求网页中的更多数据,转而对网页进行静态化,呈现于页面之中。
采用javascript进行这种提取一般需要以下几步:
1、读取网页,并匹配重定向http头获取body流,获取响应page_url。在获取响应body流的page_url后,遍历整个网页,依次匹配相应的body流,并计算出提取结果。
2、读取提取结果,将提取结果依次放置到对应的javascript中,并计算出提取值的base64编码。
3、将提取值转换为base64编码的javascript文件。根据base64编码结果,可以计算出被提取的图片链接。
二、提取规则总体思路:从0开始,给重定向http头匹配正则表达式,计算出匹配率,通过http头约束,根据不同的匹配率分配不同的抓取规则,将匹配链接中的内容提取。例如:匹配率低于70%时,则不进行抓取。只抓取匹配率达到70%以上的规则,将该规则提取出来。
1、正则提取匹配率http头规则::正则表达式匹配上限:500^^$一次通用问题的目标链接:/input/a#innerhtml匹配率500%*imgfor://user-agent:''*imgfor://user-agent:''*server:''*input://source=''*offset://http/input*img://user-agent:''*input://user-agent:''*text://user-agent:''*input://user-agent:''*input://inputis://(site:''*)*regexp://*sites://***。