js提取指定网站内容-苏州安嘉匹配率500%

优采云 发布时间: 2022-09-08 19:16

  js提取指定网站内容-苏州安嘉匹配率500%

  js提取指定网站内容

  一、前言提取是api调用的最基本的一步。在应用程序中,经常需要读取网页,或者更有可能的是对网页进行页面上的内容提取。采用调用javascript的方式进行提取,javascript是从网页中获取动态响应,从而能够从javascript请求网页中的更多数据,转而对网页进行静态化,呈现于页面之中。

  

  采用javascript进行这种提取一般需要以下几步:

  1、读取网页,并匹配重定向http头获取body流,获取响应page_url。在获取响应body流的page_url后,遍历整个网页,依次匹配相应的body流,并计算出提取结果。

  2、读取提取结果,将提取结果依次放置到对应的javascript中,并计算出提取值的base64编码。

  

  3、将提取值转换为base64编码的javascript文件。根据base64编码结果,可以计算出被提取的图片链接。

  二、提取规则总体思路:从0开始,给重定向http头匹配正则表达式,计算出匹配率,通过http头约束,根据不同的匹配率分配不同的抓取规则,将匹配链接中的内容提取。例如:匹配率低于70%时,则不进行抓取。只抓取匹配率达到70%以上的规则,将该规则提取出来。

  1、正则提取匹配率http头规则::正则表达式匹配上限:500^^$一次通用问题的目标链接:/input/a#innerhtml匹配率500%*imgfor://user-agent:''*imgfor://user-agent:''*server:''*input://source=''*offset://http/input*img://user-agent:''*input://user-agent:''*text://user-agent:''*input://user-agent:''*input://inputis://(site:''*)*regexp://*sites://***。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线