网页抓取 加密html(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

优采云 发布时间: 2021-09-12 07:11

  网页抓取 加密html(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

  一、前端必须掌握HTML基础知识

  5、选择器

  在 CSS 中,我们使用 CSS 选择器来定位节点。比如下图中div节点的id如果是asideProfile,可以表示为#asideProfile,其中#以selection id开头,后面跟着id的名字。

  

  另外,如果我们要选择一个类为side-box的节点,我们可以使用.aside-box,其中点“.”开始选择班级,然后是班级名称。

  6、reptile 原理

  互联网是一个大网,爬虫(即网络爬虫)是在网络上爬行的蜘蛛。如果把网络的节点比作网页,爬到这个就相当于访问了页面,获取了它的信息。节点之间的连接可以比作网页和网页之间的链接关系。

  爬虫首先要做的就是获取网页,这里是获取网页的源代码。获得网页的源代码后,下一步就是分析网页的源代码,从中提取出我们想要的数据。

  提取信息后,我们可以简单地将其保存为 TXT 文本或 JSON 文本,或者将其保存到数据库,例如 MySQL 和 MongoDB,或者将其保存到远程服务器。

  7、JavaScript 渲染页面

  现在越来越多的网页使用 Ajax 和前端模块化工具构建。整个网页可能会被 JavaScript 渲染,这意味着原来的 HTML 代码只是一个空壳。

  网页请求这个js文件。获取文件后,它会执行其中的JavaScript代码,JavaScript会改变HTML中的节点,向其中添加内容,最终得到完整的页面。

  对于,可以使用selenium或者找到Ajax请求地址来解决。

  8、加密

  我们在爬网站的时候,经常会遇到各种类似加密的情况,比如:字体加密,结构参数加密,要爬就一定要知道怎么找到对应的js文件,研究这些参数是怎么回事建?现在越来越多的完整信息通过App展示。有的app在内部实现的时候会增加一些对代理的检查,比如绕过系统代理直接连接或者检测到使用了代理,直接拒绝连接。这需要考虑使用 Wireshark 和 Tcpdump 在较低级别的协议上捕获数据包。

  之前的文章都会被反复整理整理。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线