网页抓取加密html(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

优采云发布时间: 2021-09-12 07:11

　　一、前端必须掌握HTML基础知识

　　5、选择器

　　在 CSS 中，我们使用 CSS 选择器来定位节点。比如下图中div节点的id如果是asideProfile，可以表示为#asideProfile，其中#以selection id开头，后面跟着id的名字。

　　另外，如果我们要选择一个类为side-box的节点，我们可以使用.aside-box，其中点“.”开始选择班级，然后是班级名称。

　　6、reptile 原理

　　互联网是一个大网，爬虫（即网络爬虫）是在网络上爬行的蜘蛛。如果把网络的节点比作网页，爬到这个就相当于访问了页面，获取了它的信息。节点之间的连接可以比作网页和网页之间的链接关系。

　　爬虫首先要做的就是获取网页，这里是获取网页的源代码。获得网页的源代码后，下一步就是分析网页的源代码，从中提取出我们想要的数据。

　　提取信息后，我们可以简单地将其保存为 TXT 文本或 JSON 文本，或者将其保存到数据库，例如 MySQL 和 MongoDB，或者将其保存到远程服务器。

　　7、JavaScript 渲染页面

　　现在越来越多的网页使用 Ajax 和前端模块化工具构建。整个网页可能会被 JavaScript 渲染，这意味着原来的 HTML 代码只是一个空壳。

　　网页请求这个js文件。获取文件后，它会执行其中的JavaScript代码，JavaScript会改变HTML中的节点，向其中添加内容，最终得到完整的页面。

　　对于，可以使用selenium或者找到Ajax请求地址来解决。

　　8、加密

　　我们在爬网站的时候，经常会遇到各种类似加密的情况，比如：字体加密，结构参数加密，要爬就一定要知道怎么找到对应的js文件，研究这些参数是怎么回事建？现在越来越多的完整信息通过App展示。有的app在内部实现的时候会增加一些对代理的检查，比如绕过系统代理直接连接或者检测到使用了代理，直接拒绝连接。这需要考虑使用 Wireshark 和 Tcpdump 在较低级别的协议上捕获数据包。

　　之前的文章都会被反复整理整理。

0

2021-09-12

网页抓取加密html

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取加密html(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

0 个评论

发起人

AI时代内容工厂

网页抓取 加密html(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

0 个评论

发起人

网页抓取加密html(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)