网页抓取解密(网页抓取解密机制（二）-黄一炜的文章)

优采云发布时间: 2022-01-18 03:05

　　网页抓取解密机制（二）-黄一炜的文章-知乎专栏这些年我在网络上做技术，做分析，做了不少ga/meta分析，研究过多个网站，也曾对比过很多不同的爬虫工具。这些年做技术也确实很辛苦，在过程中难免会使用到各种工具，有时挺想把所有的工具都掌握一遍，把各工具的差异，最佳使用方法，最佳配置方法做一个分享。这样有助于大家集中精力在自己的项目中。

　　随着研究的深入，会不断的更新，分享给大家。使用工具的原则是，能完全掌握一个工具，并且高效且有良好的使用体验就好，当然从抓取的人数，抓取效率等方面来说，可能某些工具优于其他工具。本篇关注点在如何抓取某些页面。1，基础原理。爬虫技术中，目标网站的抓取原理主要是通过协议数据包编码，注入对应xml标签来得到包含目标网站的标签序列，然后再进行网页的解析。

　　2，高级原理。要基于抓取的页面，需要根据页面的html标签进行解析，而得到html标签之后，每个html标签都会开启一个http头，这就成了我们想抓取的网页的路径。因此，爬虫就可以针对每个页面对应的http头发起某种解析方法，让我们达到自己想抓取的页面。比如，上述需要从index.html下面找到第一个name标签，使用最基础的html文档处理技术，可以看到(通过name标签提取关键字，如:s,，xr标签也可以得到某些html标签的某些特征值。

　　)第一个html标签得到的信息已经无法使用了，接下来，我们需要对这个页面的sch和href标签再进行进一步的解析，分析出更多的关键字。可以看到，第一个html标签得到的结果已经不合理，通过分析，我们得到了这个网页在第一个sch的页面域名是，第二个html标签得到的结果是。如果我们对其进行secret的编码，比如：/ek/voc/dscha.txt把它存储到数据库里面。

　　一个网页中只有一个域名或者地址，但是，http头中，每个html标签的值，都会对应一个关键字，那么，分析它第一个href标签也就有意义了。随后，通过http头对应的特征值进行解析，最终找到所需要的内容。比如，在index.html页面根据域名解析，得到的特征值是，通过页面中的内容可以大概计算出我们想抓取的内容是哪些。

　　3，下一篇，对应的工具及对应的插件汇总，各位若有更好的插件请分享给我，或者有使用该工具抓取过什么特定页面的，也分享给我。

0

2022-01-18

网页抓取解密

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取解密(网页抓取解密机制（二）-黄一炜的文章)

0 个评论

发起人

AI时代内容工厂

网页抓取解密(网页抓取解密机制（二）-黄一炜的文章)

0 个评论

发起人

相关问题