网页抓取解密(网页抓取解密机制(二)-黄一炜的文章)
优采云 发布时间: 2022-01-18 03:05网页抓取解密(网页抓取解密机制(二)-黄一炜的文章)
网页抓取解密机制(二)-黄一炜的文章-知乎专栏这些年我在网络上做技术,做分析,做了不少ga/meta分析,研究过多个网站,也曾对比过很多不同的爬虫工具。这些年做技术也确实很辛苦,在过程中难免会使用到各种工具,有时挺想把所有的工具都掌握一遍,把各工具的差异,最佳使用方法,最佳配置方法做一个分享。这样有助于大家集中精力在自己的项目中。
随着研究的深入,会不断的更新,分享给大家。使用工具的原则是,能完全掌握一个工具,并且高效且有良好的使用体验就好,当然从抓取的人数,抓取效率等方面来说,可能某些工具优于其他工具。本篇关注点在如何抓取某些页面。1,基础原理。爬虫技术中,目标网站的抓取原理主要是通过协议数据包编码,注入对应xml标签来得到包含目标网站的标签序列,然后再进行网页的解析。
2,高级原理。要基于抓取的页面,需要根据页面的html标签进行解析,而得到html标签之后,每个html标签都会开启一个http头,这就成了我们想抓取的网页的路径。因此,爬虫就可以针对每个页面对应的http头发起某种解析方法,让我们达到自己想抓取的页面。比如,上述需要从index.html下面找到第一个name标签,使用最基础的html文档处理技术,可以看到(通过name标签提取关键字,如:s,,xr标签也可以得到某些html标签的某些特征值。
)第一个html标签得到的信息已经无法使用了,接下来,我们需要对这个页面的sch和href标签再进行进一步的解析,分析出更多的关键字。可以看到,第一个html标签得到的结果已经不合理,通过分析,我们得到了这个网页在第一个sch的页面域名是,第二个html标签得到的结果是。如果我们对其进行secret的编码,比如:/ek/voc/dscha.txt把它存储到数据库里面。
一个网页中只有一个域名或者地址,但是,http头中,每个html标签的值,都会对应一个关键字,那么,分析它第一个href标签也就有意义了。随后,通过http头对应的特征值进行解析,最终找到所需要的内容。比如,在index.html页面根据域名解析,得到的特征值是,通过页面中的内容可以大概计算出我们想抓取的内容是哪些。
3,下一篇,对应的工具及对应的插件汇总,各位若有更好的插件请分享给我,或者有使用该工具抓取过什么特定页面的,也分享给我。