js提取指定网站内容-苏州安嘉匹配率500%

优采云发布时间: 2022-09-08 19:16

　　js提取指定网站内容

　　一、前言提取是api调用的最基本的一步。在应用程序中，经常需要读取网页，或者更有可能的是对网页进行页面上的内容提取。采用调用javascript的方式进行提取，javascript是从网页中获取动态响应，从而能够从javascript请求网页中的更多数据，转而对网页进行静态化，呈现于页面之中。

　　采用javascript进行这种提取一般需要以下几步：

　　1、读取网页，并匹配重定向http头获取body流，获取响应page_url。在获取响应body流的page_url后，遍历整个网页，依次匹配相应的body流，并计算出提取结果。

　　2、读取提取结果，将提取结果依次放置到对应的javascript中，并计算出提取值的base64编码。

　　3、将提取值转换为base64编码的javascript文件。根据base64编码结果，可以计算出被提取的图片链接。

　　二、提取规则总体思路：从0开始，给重定向http头匹配正则表达式，计算出匹配率，通过http头约束，根据不同的匹配率分配不同的抓取规则，将匹配链接中的内容提取。例如：匹配率低于70%时，则不进行抓取。只抓取匹配率达到70%以上的规则，将该规则提取出来。

　　1、正则提取匹配率http头规则：：正则表达式匹配上限：500^^$一次通用问题的目标链接：/input/a#innerhtml匹配率500%*imgfor://user-agent:''*imgfor://user-agent:''*server:''*input://source=''*offset://http/input*img://user-agent:''*input://user-agent:''*text://user-agent:''*input://user-agent:''*input://inputis://(site:''*)*regexp://*sites://***。

0

2022-09-08

js提取指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js提取指定网站内容-苏州安嘉匹配率500%

0 个评论

发起人

AI时代内容工厂

js提取指定网站内容-苏州安嘉匹配率500%

0 个评论

发起人

相关问题