js提取指定网站内容的代码，类似于爬虫，就像你不能用你提取代码的api

优采云发布时间: 2022-07-26 20:08

　　js提取指定网站内容的代码，类似于爬虫，就像你不能用你提取代码的api去爬虫别人提取网站内容一样，这个web视频是在chrome的开发者工具里，用的是抓包方式提取网页内容，会发现抓包的过程中是加密的。一、加密方式：一种简单粗暴的方式是，直接把网页内容的域名解析出来然后把加密的html的内容生成js的代码供浏览器解析，如下图，这种方式适合一些必须通过https通道进行交互的场景。

　　另一种方式是，利用反向代理，把普通的代理服务器伪装成浏览器进行访问，目前百度的代理加速还是不错的，做成一个域名绑定的解析js代码，利用https通道进行跨越代理访问，或者做一个反向代理服务器绑定一个静态站点，用这个静态站点做代理访问的代理服务器伪装成浏览器来解析加密html，如下图，这种方式只适合解析带有指定链接的文章。

　　二、源码格式：对于没有url结构的文章，可以考虑将网页源码生成url结构，对一些内容较多的文章可以根据网页包含的关键词提取关键信息，如下图，可以提取“婚纱摄影“所对应的url结构。不同层级的站点（网站），网页结构都可以做一些定制，比如生成出树状的结构，非结构化文件提取更加容易，不同页面能够在最短的时间内提取出大部分信息。

　　比如知乎的首页，知乎上包含了很多话题，可以将这些结构化的东西抽象成树状的组织结构，或者做成文件夹的方式来生成树状结构，方便提取，抽象方式如下图，抽象的树状结构如下图，抽象树状结构这种方式适合抽象较少的文件的文章内容，比如歌曲名称和歌曲存档等等。当然可以直接定制一个所有的页面的定制过程，构建api库，来抽象一些url结构，抽象一些关键词，但是代码量比较大。---欢迎大家关注我的公众号：【程序人生】。这里有和大家分享一些高效学习的方法和干货。

0

2022-07-26

js提取指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js提取指定网站内容的代码，类似于爬虫，就像你不能用你提取代码的api

0 个评论

发起人

AI时代内容工厂

js提取指定网站内容的代码，类似于爬虫，就像你不能用你提取代码的api

0 个评论

发起人

相关问题