js提取指定网站内容的代码,类似于爬虫,就像你不能用你提取代码的api
优采云 发布时间: 2022-07-26 20:08js提取指定网站内容的代码,类似于爬虫,就像你不能用你提取代码的api
js提取指定网站内容的代码,类似于爬虫,就像你不能用你提取代码的api去爬虫别人提取网站内容一样,这个web视频是在chrome的开发者工具里,用的是抓包方式提取网页内容,会发现抓包的过程中是加密的。一、加密方式:一种简单粗暴的方式是,直接把网页内容的域名解析出来然后把加密的html的内容生成js的代码供浏览器解析,如下图,这种方式适合一些必须通过https通道进行交互的场景。
另一种方式是,利用反向代理,把普通的代理服务器伪装成浏览器进行访问,目前百度的代理加速还是不错的,做成一个域名绑定的解析js代码,利用https通道进行跨越代理访问,或者做一个反向代理服务器绑定一个静态站点,用这个静态站点做代理访问的代理服务器伪装成浏览器来解析加密html,如下图,这种方式只适合解析带有指定链接的文章。
二、源码格式:对于没有url结构的文章,可以考虑将网页源码生成url结构,对一些内容较多的文章可以根据网页包含的关键词提取关键信息,如下图,可以提取“婚纱摄影“所对应的url结构。不同层级的站点(网站),网页结构都可以做一些定制,比如生成出树状的结构,非结构化文件提取更加容易,不同页面能够在最短的时间内提取出大部分信息。
比如知乎的首页,知乎上包含了很多话题,可以将这些结构化的东西抽象成树状的组织结构,或者做成文件夹的方式来生成树状结构,方便提取,抽象方式如下图,抽象的树状结构如下图,抽象树状结构这种方式适合抽象较少的文件的文章内容,比如歌曲名称和歌曲存档等等。当然可以直接定制一个所有的页面的定制过程,构建api库,来抽象一些url结构,抽象一些关键词,但是代码量比较大。---欢迎大家关注我的公众号:【程序人生】。这里有和大家分享一些高效学习的方法和干货。